Big Data konventielle Technologie Kriterien zur Auswahl Peter Welker BASEL 1 BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN Wer bin ich? Peter Welker Berater Partner Verantwortlich bei der Trivadis für Was bisher geschah 20 Jahre IT – 16 Jahre DWH, meist Oracle Architektur, Performance Reviews, Evaluationen, PoCs DWH Appliances, MPP- & „neue“ Plattformen Training, Artikel, Talks, Bücher DOAG Themenverantwortlicher „Big Data“ 2 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Big Data – Lösungen Business Intelligence Beratung und Implementierung AGENDA Performance Latenz Big Data Kosten Analytik 3 Know-How 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität BIG DATA & Technologien 4 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 2.3 Million 44 525 7 252 10 41 Emails Sent Searches Tweets New Websites Blog Posts 14 2 5 40 Second by Second 00:00:00 00:00:01 85 060 1 139 Videos Watched Photos Uploaded 7 Devices Sold New Users 33 MW 1 370 Posts Data Source: Internet Live Stats, 02.07.2014 2014 © Trivadis 1 476 22.2 TB 0.5 Calls Internet Traffic Websites Hacked 31 tons Used/Produced • • • Was ist Big Data? Big Data Latenz Performance Big Data & Technologien Analytik Kosten Know-How Maturität Volume Velocity Variety Veracity Data at rest Data in motion Data in many forms Data in doubt Tera-, peta- to exa-bytes zur Verarbeitung Sensor- und Social Data Neue Storages • • Streaming Data (Milli)sekunden bis Minuten zur Erkennung, Beantwortung oder Analyse • • • Strukturierte und unstrukturierte Daten Text, Zahlen, Multimedia Unterschiedlichste Datenquellen • Ungewissheit durch Dateninkonsistenz, Unvollständigkeit, Mehrdeutigkeit, Verzögerung, Täuschung und Schätzung adaptiert nach IBM (2014) 6 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Noch‘n Versuch Unkonventionelle Methoden und Technologien für „unlimitiertere“ Datenverarbeitung McKinsey Big Data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. Gartner Big Data are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery, and process optimization. BARC Big Data designates methods and technologies for the highly scalable acquisition, storage, and analysis of polystructured data 7 2014 © Trivadis Big | Data | Warehouse 17.06.2014 Herkömmlich, alt & konventionell Big Data Latenz Performance Analytik Kosten Know-How Maturität + 35 Jahre relationale Datenbankmanagementsysteme (RDBMS) & ACID + 25+ Jahre relationale Reporting- und Business Intelligence Tools + Partitionierung, Parallelisierung, Clustering (incl. Scale-Out) sind lange erprobt + Gleiches gilt für Backup, Standby, Monitoring, Maintenance, Patching usw. Eingeschränktes Modell (relational) Algorithmen (bspw. auf Disk Memory ausgelegt) Altlasten (unflexible Codebasis usw.) Nicht ganz billig 8 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Progressiv, neu & unkonventionell + + + + 9 Big Data Latenz Performance Analytik Kosten Know-How Maturität Freie “Modellierung“ (schemalos) oder frei wählbare Modelle Algorithmen auf neue HW und Erkenntnisse ausgelegt Hohe Skalierbarkeit Keine/Wenig Altlasten Oft < 10 oder < 5 Jahre Erfahrung Massen unterschiedlicher, spezialisierter Tools Meist kein ACID Admin (Backup, Standby, Monitoring, Maintenance, Patching …) oft unvollständig / unausgereift 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 CAP Theorem (Brewer) Big Data Latenz Performance Analytik Kosten Know-How Maturität Jedes über Netzwerk verteilte Datensystem kann nur maximal zwei von drei erwünschten Eigenschaften haben onsistency (Konsistenz) Alle Knoten sehen dieselben Daten zur gleichen Zeit, egal wo die Daten gespeichert sind Consistency vailability (Verfügbarkeit – Responsetime) Fehler verhindern nicht, dass die “Überlebenden” performant weiter arbeiten CA 10 n/a Availability Network artition tolerance (Ausfalltoleranz) Das System arbeitet weiter, auch wenn willkürlich Nachrichten/Daten verloren gehen 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 CP AP Network Partition Tolerance NoSQL – BASE Definition Fokus neuer Datenbanken Nicht relational, verteilt Open-Source Horizontal skalierbar (Scale-Out) Weitere häufige Charakteristiken “Schemalos” Einfache Replikation, Einfache API Abschließend Konsistent (BASE statt ACID) Riesige Datenmengen, geringe Latenz usw. NoSQL ("not only sql") ist irreführend. Besser passen die o.g. Kriterien 11 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Big Data Latenz Performance Analytik Kosten Know-How Maturität BASE (statt ACID) Basically Available: Verfügbarkeit ist wichtiger als Konsistenz Soft State: Höhere Verfügbarkeit resultiert in eher “abschließender Konsistenz” Eventually Consistent: Ein Datensatz wird irgendwann konsistent sein, sofern eine hinreichend lange Zeit ohne Schreibvorgänge und Fehler vorausgesetzt werden kann Ist das Big Data? Big Data Latenz Performance Quiz – Aufgabe 1 Analytik Kosten Know-How Volume Variety 50 Mrd. Rec. Social Media Daten 25 TB Rohdaten Strukturiert + unstrukturiert Velocity Veracity < 1 min Latenz 7 – 200000 Ev/s Einfache Query (s) Analytische Q. (h) 12 Keine Qualifikation Basisstruktur weitgehend stabil 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Und das? Big Data Latenz Performance Quiz – Aufgabe 2 Analytik Kosten Know-How Volume Variety 200 Mrd. Rec. Technische Sensordaten 12 TB Rohdaten Strukturiert und typisiert Velocity Veracity 20 min Latenz Alle Daten vorqualifiziert 56 Mio Events / Tag Query in Sek. 13 Datenexistenz nicht gesichert Struktur stabil 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Und was ist damit? Big Data Latenz Performance Quiz – Aufgabe 3 Analytik Kosten Know-How Volume Variety 0.4 PB Events Velocity > 10 Mio Events / Tag Einfache Query < 1s 14 Buchungsdaten Strukturiert + typisiert Veracity Alle Daten vorqualifiziert und konsistent Struktur stabil 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Latenz 15 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Latenz – Beispiele Big Data Latenz Performance Analytik Kosten Know-How Maturität Zeit von der Entstehung der Information bis zur gewünschten Reaktion Fraud Detection – Reaktion innerhalb Millisekunden oder Sekunden Aktienhandel Sperrung von Kreditkarten oder Mobiltelefonen Entdecken und Unterbinden unbefugter Zugriffe auf IT Systeme „Real Time“ (Business) Intelligence – Verfügbarkeit < Minuten bis Stunden Fehleranalyse ungewöhnlicher Sensordaten in Stromversorgungsnetzen Erkennen sicherheitsrelevanter Ereignisse im Social Media Umfeld Sentimentanalyse von produktrelevanten Aussagen im Internet Klassische Business Intelligence (täglich, wöchentlich, monatlich) 16 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Grenzen der Technologien? ∞ Durchsatz (GB/sek) Big Data Latenz Performance Analytik Kosten Know-How Maturität Je kleiner die Transaktionen, desto geringer der Durchsatz Je kürzer die Latenzen, desto kleiner die Transaktionen Je kürzer die Latenzen, desto geringer der Durchsatz NoSQL based Lambda RDBMS based Lambda RDBMS Komfortzone 1 𝐿𝑎𝑡𝑒𝑛𝑧 (𝑠) 0 17 ∞ 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Gilt aufgrund Overhead (bspw. durch durch ACID Anforderungen) besonders für gängige RDBMS Geringe Latenzen erzeugen hohe Kosten oder erfordern andere Technologien Spezielle Architekturen verschieben diese Grenzen (bspw. Real-Time Partitions) Beispiel 1 – Twitteranalyse Bis zu 200.000+ Tweets pro Sekunde Mittelkomplexe Anforderungen an „Natural Language Processing“ (NLP) Suche nach Begriffen, Bewertung, Alerting in Sekunden Speichern und einfache Analysen auf gespeicherten Daten in < 5 Sekunden Komplexere Analysen zusammen mit aufbereiteten historische Daten jederzeit möglich Wird teuer mit kommerziellem RDBMS… 18 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Performance Durchsatz, Antwortzeit, Skalierbarkeit 19 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Performance – Beispiel Big Data Latenz Performance Analytik Kosten Know-How Maturität Durchsatz, Antwortzeiten und Skalierbarkeit 56 Mio Records/Tag in 15.000 Dateien, 20 Minuten Latenz f. ETL-Strecke, typische Abfrageergebnisse < 5 Sekunden Dateien prüfen, laden und archivieren Wartezeit bis zum Check 0 Minuten 20 5 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 10 Stammdaten transformieren Wertedaten transformieren 15 Data Marts aktualisieren 20 Grenzen der Technologien? Skalierbarkeit Key-value Performance Analytik Kosten Know-How Maturität RDBMS Kostentreiber Relational Multi Dimensional Graph SQL Komfortzone Modellstandardisierung, Werkzeuge, Komplexität 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Latenz Für unser Beispiel 2 Wide Column (Column Families / Extensible Records) Document 21 Big Data Latenz < 5 Minuten > 250 Mio Recs/Tag Komplexere Data Marts Komplexere Transform. RDBMS Technologietreiber Latenz < 1 Minute > X Mrd Recs/Tag Komplexere Data Marts Komplexere Transform. Maturität 22 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Grundlegendes nach CMMI Big Data Latenz Performance Analytik Kosten Know-How Maturität Gilt gleichermaßen für Produktentwicklung Support Sales, Accounting usf. Und das ist nur eine Seite der Medaille, denn neue Produkte Bedienen meist eine Nische Fokussieren auf bestimmte Eigenschaften oder Funktionen Eignen sich für Best-of-Breed Ansätze Quelle: Wikipedia 23 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Vor- und Nachteile neuer Technik Big Data Latenz Performance Analytik Kosten Know-How Trotz möglicher Bugs und Ärger mit dem Support Die über Jahrzehnte etablierten RDBMS sind stabil, robust und lange erprobt Maturität One Platform fits all Neue Produkte bieten oft 24 Geringere Komplexität bei geringerem Funktionsumfang Spezialisierte Funktionen und eingeschränkte Einsatzgebiete Bessere Leistung bei bestimmten Aufgaben Mehr Fehler in Relation zur Komplexität Mehr Einblick und Einfluss auf die Entwicklung Engagierteren/Minimalen/Keinen Support Unsicherheit bei der Lebensdauer Einschränkte Administrier- und Monitoringfunktionen 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Best of Breed Beispiel – Backup Hadoop Big Data Latenz Performance Analytik Kosten Know-How Maturität Wie macht man ein Hadoop Backup? Wird nicht benötigt weil keine wichtigen Daten OK bei „Explorativer Analyse“ aber wenn die Daten wichtig sind? Garnicht wg. dreifache Redundanz aller Daten OK aber wenn der Standort abbrennt? Macht nix: Rack-Aware und zwei Standorte OK, aber wenn Daten versehentlich gelöscht werden? 2ten Hadoop Cluster aufziehen und gleichzeitig beladen / distcp o.Ä. einsetzen OK und was ist mit Backup-Konsistenz oder PITR? Welche Konsistenz? Was ist PITR? 25 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Modelle, Analytik & Visualisierung 26 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Berichte- und Analyse Big Data Latenz Performance Analytik Kosten Know-How Maturität „Plattformunproblematisch“, weil … Zahlreiche etablierte Werkzeuge können inzwischen sowohl Hadoop, NoSQL als auch klassische SQL Datenbanken als Quelle nutzen SAS, OBIEE, SAP BO, Microstrategy, IBM Cognos und sogar MS Excel usw. Die meisten neuen / spezialisierten Werkzeuge nutzen ebenfalls beide Welten Tableau, QlikView, diverse Data Mining Tools usw. Der Rest ist Programmierung – egal ob via MapReduce, Spark oder Hive, egal ob Java, R, Python oder PL/SQL Schwierig wird es, wenn Daten aus beiden Welten gleichzeitig kommen Performance- und Schemaprobleme sind vorprogrammiert 27 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Visualisierung Big Data Latenz Performance Analytik Kosten Know-How Maturität Hier gibt es zahlreiche neue Ansätze, die über die klassischen „Charts“ weit hinausgehen https://github.com/mbostock/d3/wiki/Gallery oder http://d3js.org/ Das meiste davon wird in klassischem BI nicht benötigt bzw. trägt dort nicht zur Verständlichkeit bei ;-) Siehe auch http://www.ibcs-a.org/standards Mehr als zwei oder drei Achsen Hierarchische Relationen Relationen zwischen Objekte und in andere Medien usf. „Plattformunproblematisch“, weil Daten speziell aufbereitet werden müssen In viele Fällen ist auch hier Programmierarbeit gefragt 28 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Modelle Big Data Latenz Performance Analytik Kosten Know-How Maturität Schemalos Schema Eigentlich falsch. Die Frage ist „Schema on read“ „Schema on write“ On-Read ist flexibler beim Sammeln der Daten, aber aufwendiger beim Lesen und Zusammenführen Irgendwann muss man sich die Arbeit machen Was geht mit „reinem“ RDBMS nicht so gut Unstrukturiert (Freitext, Multimedia etc.) Sehr speziell strukturiert (bspw. Semantic Web) Stark volatile Strukturen (unklare Spaltenmengen, permanente Schemaänderungen) 29 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Kosten 30 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Ein einfacher Vergleich (ohne Garantie) Big Data Latenz Performance Analytik Kosten Know-How Maturität http://blogs.hds.com/david/2009/03/the_cost_impact_cloud_storage.html http://rainstor.com/how-much-is-that-hadoop-cluster-really-costing-you/ http://rainstor.com/compression-tames-big-data-on-hadoop/ Netto Speicherkapazität und Computing Power für ~300 TB Oracle Exadata X4-2 Full Rack Hardware: 1.1 Mio $ Software: 7.9 Mio $ (CPU-Lic, EE+RAC+PART) Total: 9.0 Mio $ (- Rabatt ;-) Oracle Big Data Appliance X4-2 Full Rack Total: 0.55 Mio $ (- Rabatt) Tatsächliche TCO hängt vom Einsatzgebiet und den konkreten Anforderungn ab (Analytics, Kompression, B&R, Encryption, HA, Migration, Upgrading, Capacity-on-demand etc.) Der 3 Jahres-TCO kann 5 .. 10 mal kleiner – aber auch 2+ mal höher sein als bei konventionellen Plattformen bspw. mit RDBMS und SAN 31 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Aber Big Data Latenz Performance Analytik Kosten Know-How Zusätzlicher Know-How Aufbau? Einkauf zusätzlicher HW/SW? Einkauf externer Dienstleistungen? Ausgleich für Ineffizienz durch ungeeignete Architektur? Risiko der Unkalkulierbarkeit durch unbekannte LifeCycles? 32 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Know-How 33 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Trivial Big Data Latenz Performance Analytik Kosten Know-How Viel Know-How kostet viel Verteiltes / heterogenes Know-How ist noch teurer Best-Of-Breed Ansätze benötigen besonders breites und heterogenes Know-How Ausbildung, Übung, Ineffizienz am Anfang … 34 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Skalierbarkeit Was ist Ihr Hammer? Key-value Big Data Latenz Performance Analytik Kosten Know-How Maturität Wide Column (Column Families / Extensible Records) Document Relational Multi Dimensional Was heisst “Komfortzone”? Graph Modellstandardisierung, Werkzeuge, Komplexität 35 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Starker Einfluss auf Auswahl! Big Data Latenz Performance Analytik Kosten Know-How Wie denkst Du? Was interessiert Dich? Was ist Dein Ziel? Was kannst Du? Was musst Du können? Was willst Du können? Was will Dein Chef dass Du kannst (können willst)? Was können Deine Kollegen? 36 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Zusammenfassung 37 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Big Data Technologien? JA Big Data Latenz Performance Quiz – Aufgabe 1 Analytik Kosten Know-How Volume Variety 50 Mrd. Rec. Social Media Daten 25 TB Rohdaten Strukturiert + unstrukturiert Velocity Veracity 1 min Latenz 7 – 200000 Ev/s Einfache Query (s) Analytische Q. (h) 38 Keine Qualifikation Basisstruktur weitgehend stabil 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Und hier? Noch nicht Big Data Latenz Performance Quiz – Aufgabe 2 Analytik Kosten Know-How Volume Variety 200 Mrd. Rec. Technische Sensordaten 12 TB Rohdaten Strukturiert und typisiert Velocity Veracity 20 min Latenz Alle Daten vorqualifiziert 56 Mio Events / Tag Query in Sek. 39 Datenexistenz nicht gesichert Struktur stabil 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Und was ist damit? Nein Big Data Latenz Performance Quiz – Aufgabe 3 Analytik Kosten Know-How Volume Variety 0.4 PB Events Velocity > 10 Mio Events / Tag Einfache Query < 1s 40 Buchungsdaten Strukturiert + typisiert Veracity Alle Daten vorqualifiziert und konsistent Struktur stabil 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Maturität Grenzen RDBMS (Technik) Big Data Latenz Performance Analytik Kosten Know-How Maturität Extrem geringe Latenz und Antwortzeit (NoSQL Key/Value, Documents) Extrem große Datenmenge (PB++) Extrem hoher Datendurchsatz (x TB/d) Unstrukturierte Daten (Freitext, Multimedia etc.) Sehr speziell strukturierte Daten (bspw. Semantic Web) Stark volatile Strukturen (unklare Spaltenmengen, permanente Schemaänderungen) „Freie Sicht“ auf die Daten 41 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Weitere Kriterien Kosten (insbesondere TCO) Maturität Know-How Neigung – Überzeugung – Spass: Was ist mein Hammer? 42 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 Big Data Latenz Performance Analytik Kosten Know-How Maturität Fragen und Antworten... Peter Welker [email protected] BASEL 43 BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 25.09.2014 FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN