Latenz Maturität Analytik Kosten Know-How Performance Big

Werbung
Big Data  konventielle Technologie
Kriterien zur Auswahl
Peter Welker
BASEL
1
BERN
BRUGG
LAUSANNE
ZÜRICH
DÜSSELDORF
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
FRANKFURT A.M.
FREIBURG I.BR.
HAMBURG
MÜNCHEN
STUTTGART
WIEN
Wer bin ich?
Peter Welker
Berater
Partner
 Verantwortlich bei der Trivadis für
 Was bisher geschah
20 Jahre IT – 16 Jahre DWH, meist Oracle
Architektur, Performance
Reviews, Evaluationen, PoCs
DWH Appliances, MPP- & „neue“
Plattformen
 Training, Artikel, Talks, Bücher
 DOAG Themenverantwortlicher „Big Data“




2
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
 Big Data – Lösungen
 Business Intelligence Beratung und
Implementierung
AGENDA
Performance
Latenz
Big
Data
Kosten
Analytik
3
Know-How
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
BIG DATA & Technologien
4
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
2.3 Million
44 525
7 252
10
41
Emails Sent
Searches
Tweets
New Websites
Blog Posts
14
2
5
40
Second
by
Second
00:00:00
00:00:01
85 060
1 139
Videos Watched
Photos Uploaded
7
Devices Sold
New Users
33 MW
1 370
Posts
Data Source: Internet Live Stats, 02.07.2014
2014 © Trivadis
1 476
22.2 TB
0.5
Calls
Internet Traffic
Websites Hacked
31 tons
Used/Produced
•
•
•
Was ist Big Data?
Big Data
Latenz
Performance
Big Data & Technologien
Analytik
Kosten
Know-How
Maturität
Volume
Velocity
Variety
Veracity
Data at rest
Data in motion
Data in many forms
Data in doubt
Tera-, peta- to exa-bytes
zur Verarbeitung
Sensor- und Social Data
Neue Storages
•
•
Streaming Data
(Milli)sekunden bis
Minuten zur Erkennung,
Beantwortung oder
Analyse
•
•
•
Strukturierte und
unstrukturierte Daten
Text, Zahlen, Multimedia
Unterschiedlichste
Datenquellen
•
Ungewissheit durch
Dateninkonsistenz, Unvollständigkeit, Mehrdeutigkeit, Verzögerung,
Täuschung und Schätzung
adaptiert nach IBM (2014)
6
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Noch‘n Versuch
Unkonventionelle Methoden und
Technologien für „unlimitiertere“
Datenverarbeitung
 McKinsey
Big Data refers to datasets whose size is beyond the ability of typical database
software tools to capture, store, manage, and analyze.
 Gartner
Big Data are high-volume, high-velocity, and/or high-variety information assets
that require new forms of processing to enable enhanced decision making,
insight discovery, and process optimization.
 BARC
Big Data designates methods and technologies for the highly scalable
acquisition, storage, and analysis of polystructured data
7
2014 © Trivadis
Big | Data | Warehouse
17.06.2014
Herkömmlich, alt & konventionell
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
+ 35 Jahre relationale Datenbankmanagementsysteme (RDBMS) & ACID
+ 25+ Jahre relationale Reporting- und Business Intelligence Tools
+ Partitionierung, Parallelisierung, Clustering (incl. Scale-Out) sind lange erprobt
+ Gleiches gilt für Backup, Standby, Monitoring, Maintenance, Patching usw.
 Eingeschränktes Modell (relational)
 Algorithmen (bspw. auf Disk  Memory ausgelegt)
 Altlasten (unflexible Codebasis usw.)
 Nicht ganz billig
8
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Progressiv, neu & unkonventionell
+
+
+
+
9
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Freie “Modellierung“ (schemalos) oder frei wählbare Modelle
Algorithmen auf neue HW und Erkenntnisse ausgelegt
Hohe Skalierbarkeit
Keine/Wenig Altlasten




Oft < 10 oder < 5 Jahre Erfahrung
Massen unterschiedlicher, spezialisierter Tools
Meist kein ACID
Admin (Backup, Standby, Monitoring, Maintenance,
Patching …) oft unvollständig / unausgereift
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
CAP Theorem (Brewer)
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Jedes über Netzwerk verteilte Datensystem kann nur maximal zwei von drei
erwünschten Eigenschaften haben

onsistency (Konsistenz)
Alle Knoten sehen dieselben Daten zur gleichen
Zeit, egal wo die Daten gespeichert sind
Consistency

vailability (Verfügbarkeit – Responsetime)
Fehler verhindern nicht, dass die “Überlebenden” performant weiter arbeiten
CA

10
n/a
Availability
Network artition tolerance (Ausfalltoleranz)
Das System arbeitet weiter, auch wenn
willkürlich Nachrichten/Daten verloren gehen
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
CP
AP
Network
Partition
Tolerance
NoSQL – BASE Definition
 Fokus neuer Datenbanken
 Nicht relational, verteilt
 Open-Source
 Horizontal skalierbar (Scale-Out)
 Weitere häufige Charakteristiken




“Schemalos”
Einfache Replikation, Einfache API
Abschließend Konsistent (BASE statt ACID)
Riesige Datenmengen, geringe Latenz usw.
 NoSQL ("not only sql") ist irreführend.
Besser passen die o.g. Kriterien
11
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
BASE (statt ACID)
 Basically Available: Verfügbarkeit ist
wichtiger als Konsistenz
 Soft State: Höhere Verfügbarkeit
resultiert in eher “abschließender
Konsistenz”
 Eventually Consistent: Ein Datensatz
wird irgendwann konsistent sein,
sofern eine hinreichend lange Zeit
ohne Schreibvorgänge und Fehler
vorausgesetzt werden kann
Ist das Big Data?
Big Data
Latenz
Performance
Quiz – Aufgabe 1
Analytik
Kosten
Know-How
Volume
Variety
50 Mrd. Rec.
Social Media
Daten
25 TB Rohdaten
Strukturiert +
unstrukturiert
Velocity
Veracity
< 1 min Latenz
7 – 200000 Ev/s
Einfache Query (s)
Analytische Q. (h)
12
Keine
Qualifikation
Basisstruktur
weitgehend stabil
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Und das?
Big Data
Latenz
Performance
Quiz – Aufgabe 2
Analytik
Kosten
Know-How
Volume
Variety
200 Mrd. Rec.
Technische
Sensordaten
12 TB Rohdaten
Strukturiert und
typisiert
Velocity
Veracity
20 min Latenz
Alle Daten
vorqualifiziert
56 Mio Events /
Tag
Query in Sek.
13
Datenexistenz
nicht gesichert
Struktur stabil
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Und was ist damit?
Big Data
Latenz
Performance
Quiz – Aufgabe 3
Analytik
Kosten
Know-How
Volume
Variety
0.4 PB Events
Velocity
> 10 Mio
Events / Tag
Einfache
Query < 1s
14
Buchungsdaten
Strukturiert +
typisiert
Veracity
Alle Daten
vorqualifiziert
und konsistent
Struktur stabil
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Latenz
15
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Latenz – Beispiele
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Zeit von der Entstehung der Information bis zur gewünschten Reaktion
 Fraud Detection – Reaktion innerhalb Millisekunden oder Sekunden
 Aktienhandel
 Sperrung von Kreditkarten oder Mobiltelefonen
 Entdecken und Unterbinden unbefugter Zugriffe auf IT Systeme
 „Real Time“ (Business) Intelligence – Verfügbarkeit < Minuten bis Stunden
 Fehleranalyse ungewöhnlicher Sensordaten in Stromversorgungsnetzen
 Erkennen sicherheitsrelevanter Ereignisse im Social Media Umfeld
 Sentimentanalyse von produktrelevanten Aussagen im Internet
 Klassische Business Intelligence (täglich, wöchentlich, monatlich)
16
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Grenzen der Technologien?
∞ Durchsatz (GB/sek)
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
 Je kleiner die Transaktionen, desto
geringer der Durchsatz
 Je kürzer die Latenzen, desto kleiner
die Transaktionen
  Je kürzer die Latenzen, desto
geringer der Durchsatz
NoSQL
based
Lambda
RDBMS
based
Lambda
RDBMS
Komfortzone
1
𝐿𝑎𝑡𝑒𝑛𝑧 (𝑠)
0
17
∞
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
 Gilt aufgrund Overhead (bspw. durch
durch ACID Anforderungen) besonders
für gängige RDBMS
 Geringe Latenzen erzeugen hohe Kosten
oder erfordern andere Technologien
 Spezielle Architekturen verschieben
diese Grenzen (bspw. Real-Time
Partitions)
Beispiel 1 – Twitteranalyse
 Bis zu 200.000+ Tweets pro Sekunde
 Mittelkomplexe Anforderungen an „Natural Language Processing“ (NLP)
 Suche nach Begriffen, Bewertung, Alerting in Sekunden
 Speichern und einfache Analysen auf gespeicherten Daten in < 5 Sekunden
 Komplexere Analysen zusammen mit aufbereiteten historische Daten jederzeit
möglich
 Wird teuer mit kommerziellem RDBMS…
18
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Performance
Durchsatz, Antwortzeit, Skalierbarkeit
19
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Performance – Beispiel
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Durchsatz, Antwortzeiten und Skalierbarkeit
 56 Mio Records/Tag in 15.000 Dateien, 20 Minuten Latenz f. ETL-Strecke,
typische Abfrageergebnisse < 5 Sekunden
Dateien prüfen,
laden und
archivieren
Wartezeit
bis zum
Check
0 Minuten
20
5
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
10
Stammdaten
transformieren
Wertedaten
transformieren
15
Data Marts
aktualisieren
20
Grenzen der Technologien?
Skalierbarkeit
Key-value
Performance
Analytik
Kosten
Know-How
Maturität
 RDBMS Kostentreiber




Relational
Multi
Dimensional
Graph
SQL Komfortzone
Modellstandardisierung, Werkzeuge, Komplexität
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Latenz
Für unser Beispiel 2
Wide Column
(Column Families / Extensible Records)
Document
21
Big Data
Latenz < 5 Minuten
> 250 Mio Recs/Tag
Komplexere Data Marts
Komplexere Transform.
 RDBMS Technologietreiber




Latenz < 1 Minute
> X Mrd Recs/Tag
Komplexere Data Marts
Komplexere Transform.
Maturität
22
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Grundlegendes nach CMMI
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
 Gilt gleichermaßen für
 Produktentwicklung
 Support
 Sales, Accounting usf.
 Und das ist nur eine Seite der
Medaille, denn neue Produkte
 Bedienen meist eine Nische
 Fokussieren auf bestimmte
Eigenschaften oder Funktionen
 Eignen sich für Best-of-Breed
Ansätze
Quelle: Wikipedia
23
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Vor- und Nachteile neuer Technik
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
 Trotz möglicher Bugs und Ärger mit dem Support
 Die über Jahrzehnte etablierten RDBMS
sind stabil, robust und lange erprobt
Maturität
One Platform
fits all
 Neue Produkte bieten oft








24
Geringere Komplexität bei geringerem Funktionsumfang
Spezialisierte Funktionen und eingeschränkte Einsatzgebiete
Bessere Leistung bei bestimmten Aufgaben
Mehr Fehler in Relation zur Komplexität
Mehr Einblick und Einfluss auf die Entwicklung
Engagierteren/Minimalen/Keinen Support
Unsicherheit bei der Lebensdauer
Einschränkte Administrier- und Monitoringfunktionen
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Best of
Breed
Beispiel – Backup Hadoop
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
 Wie macht man ein Hadoop Backup?
 Wird nicht benötigt weil keine wichtigen Daten
 OK bei „Explorativer Analyse“ aber wenn die Daten wichtig sind?
 Garnicht wg. dreifache Redundanz aller Daten
 OK aber wenn der Standort abbrennt?
 Macht nix: Rack-Aware und zwei Standorte
 OK, aber wenn Daten versehentlich gelöscht werden?
 2ten Hadoop Cluster aufziehen und gleichzeitig beladen / distcp o.Ä. einsetzen
 OK und was ist mit Backup-Konsistenz oder PITR?
 Welche Konsistenz? Was ist PITR?
25
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Modelle, Analytik & Visualisierung
26
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Berichte- und Analyse
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
„Plattformunproblematisch“, weil …
 Zahlreiche etablierte Werkzeuge können inzwischen sowohl Hadoop, NoSQL als
auch klassische SQL Datenbanken als Quelle nutzen
 SAS, OBIEE, SAP BO, Microstrategy, IBM Cognos und sogar MS Excel usw.
 Die meisten neuen / spezialisierten Werkzeuge nutzen ebenfalls beide Welten
 Tableau, QlikView, diverse Data Mining Tools usw.
 Der Rest ist Programmierung – egal ob via MapReduce, Spark oder Hive, egal
ob Java, R, Python oder PL/SQL
Schwierig wird es, wenn Daten aus beiden Welten gleichzeitig kommen
 Performance- und Schemaprobleme sind vorprogrammiert
27
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Visualisierung
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Hier gibt es zahlreiche neue Ansätze, die über die klassischen „Charts“ weit
hinausgehen  https://github.com/mbostock/d3/wiki/Gallery oder http://d3js.org/
Das meiste davon wird in klassischem BI nicht benötigt bzw. trägt dort nicht zur Verständlichkeit bei ;-)
Siehe auch http://www.ibcs-a.org/standards
 Mehr als zwei oder drei Achsen
 Hierarchische Relationen
 Relationen zwischen Objekte
und in andere Medien usf.
„Plattformunproblematisch“, weil Daten speziell aufbereitet werden müssen
 In viele Fällen ist auch hier Programmierarbeit gefragt
28
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Modelle
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
 Schemalos  Schema
 Eigentlich falsch. Die Frage ist „Schema on read“  „Schema on write“
 On-Read ist flexibler beim Sammeln der Daten, aber aufwendiger beim Lesen und
Zusammenführen  Irgendwann muss man sich die Arbeit machen
 Was geht mit „reinem“ RDBMS nicht so gut
 Unstrukturiert (Freitext, Multimedia etc.)
 Sehr speziell strukturiert (bspw. Semantic Web)
 Stark volatile Strukturen (unklare Spaltenmengen, permanente Schemaänderungen)
29
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Kosten
30
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Ein einfacher Vergleich (ohne Garantie)
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
http://blogs.hds.com/david/2009/03/the_cost_impact_cloud_storage.html
http://rainstor.com/how-much-is-that-hadoop-cluster-really-costing-you/
http://rainstor.com/compression-tames-big-data-on-hadoop/
Netto Speicherkapazität und Computing Power für ~300 TB
Oracle Exadata X4-2 Full Rack
Hardware: 1.1 Mio $
Software: 7.9 Mio $ (CPU-Lic, EE+RAC+PART)
Total:
9.0 Mio $ (- Rabatt ;-)
Oracle Big Data Appliance
X4-2 Full Rack
Total:
0.55 Mio $ (- Rabatt)
Tatsächliche TCO hängt vom Einsatzgebiet und den konkreten Anforderungn ab (Analytics, Kompression,
B&R, Encryption, HA, Migration, Upgrading, Capacity-on-demand etc.)
 Der 3 Jahres-TCO kann 5 .. 10 mal kleiner – aber auch 2+ mal höher sein als bei konventionellen
Plattformen bspw. mit RDBMS und SAN
31
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Aber
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
 Zusätzlicher Know-How Aufbau?
 Einkauf zusätzlicher HW/SW?
 Einkauf externer Dienstleistungen?
 Ausgleich für Ineffizienz durch ungeeignete Architektur?
 Risiko der Unkalkulierbarkeit durch unbekannte LifeCycles?
32
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Know-How
33
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Trivial
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
 Viel Know-How kostet viel
 Verteiltes / heterogenes Know-How ist noch teurer
 Best-Of-Breed Ansätze benötigen besonders breites
und heterogenes Know-How
 Ausbildung, Übung, Ineffizienz am Anfang
 …
34
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Skalierbarkeit
Was ist Ihr Hammer?
Key-value
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Wide Column
(Column Families / Extensible Records)
Document
Relational
Multi
Dimensional
Was heisst
“Komfortzone”?
Graph
Modellstandardisierung, Werkzeuge, Komplexität
35
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Starker Einfluss auf Auswahl!
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
 Wie denkst Du?
 Was interessiert Dich?
 Was ist Dein Ziel?
 Was kannst Du?
 Was musst Du können?
 Was willst Du können?
 Was will Dein Chef dass Du kannst (können willst)?
 Was können Deine Kollegen?
36
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Zusammenfassung
37
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Big Data Technologien? JA
Big Data
Latenz
Performance
Quiz – Aufgabe 1
Analytik
Kosten
Know-How
Volume
Variety
50 Mrd. Rec.
Social Media
Daten
25 TB Rohdaten
Strukturiert +
unstrukturiert
Velocity
Veracity
1 min Latenz
7 – 200000 Ev/s
Einfache Query (s)
Analytische Q. (h)
38
Keine
Qualifikation
Basisstruktur
weitgehend stabil
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Und hier? Noch nicht
Big Data
Latenz
Performance
Quiz – Aufgabe 2
Analytik
Kosten
Know-How
Volume
Variety
200 Mrd. Rec.
Technische
Sensordaten
12 TB Rohdaten
Strukturiert und
typisiert
Velocity
Veracity
20 min Latenz
Alle Daten
vorqualifiziert
56 Mio Events /
Tag
Query in Sek.
39
Datenexistenz
nicht gesichert
Struktur stabil
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Und was ist damit? Nein
Big Data
Latenz
Performance
Quiz – Aufgabe 3
Analytik
Kosten
Know-How
Volume
Variety
0.4 PB Events
Velocity
> 10 Mio
Events / Tag
Einfache
Query < 1s
40
Buchungsdaten
Strukturiert +
typisiert
Veracity
Alle Daten
vorqualifiziert
und konsistent
Struktur stabil
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Maturität
Grenzen RDBMS (Technik)
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
 Extrem geringe Latenz und Antwortzeit (NoSQL  Key/Value, Documents)
 Extrem große Datenmenge (PB++)
 Extrem hoher Datendurchsatz (x TB/d)
 Unstrukturierte Daten (Freitext, Multimedia etc.)
 Sehr speziell strukturierte Daten (bspw. Semantic Web)
 Stark volatile Strukturen (unklare Spaltenmengen, permanente
Schemaänderungen)
 „Freie Sicht“ auf die Daten
41
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Weitere Kriterien
 Kosten (insbesondere TCO)
 Maturität
 Know-How
 Neigung – Überzeugung – Spass:
Was ist mein Hammer?
42
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
Big Data
Latenz
Performance
Analytik
Kosten
Know-How
Maturität
Fragen und Antworten...
Peter Welker
[email protected]
BASEL
43
BERN
BRUGG
LAUSANNE
ZÜRICH
DÜSSELDORF
2014 © Trivadis
Big Data - Kriterien zur Technologieauswahl
25.09.2014
FRANKFURT A.M.
FREIBURG I.BR.
HAMBURG
MÜNCHEN
STUTTGART
WIEN
Herunterladen