Big Data – Nur ein Hype? ”Wer neue Chancen nicht nutzt, verliert” Alfred Schlaucher, Oracle Was hat uns bisher interessiert? Sales & Mktg Sales & Operational Planning Finance Engineering Service Supply Management 2 Production Information Technology Warum und wie Big Data jetzt? Beiläufig entstehende Daten Maschinen-generierte Massendaten Kommunikations-Daten Geo-Daten Low Density-Daten 1. Neue Geschäftsideen 2. Bessere Einsichten 3. Optimierte Prozess 3 • Was sind interessante Daten • Wie sind sie zu speichern • Welche Analysetechnik / Verfahren • Welche Kosten entstehen? Fahnungserfolg durch massenhaftes Sammeln von Daten • Abscannen von allen KFZ-Kennzeichen an 7 Autobahnabschnitten über mehrere Monate hinweg • Hinzuziehen von Verbindungsdaten der Mobilfunkmasten 4 Die Motivation: Z. B. Versandhandel und Web Shops Ein guter Einzelhändler kennt seine Kunden Er kennt die Gewohnheiten und Lebensumstände Er empfiehlt zielgerichtet und individuell Daten über Kunden und Kaufhistorien ersetzen im Versandhandel und Webshop das Wissen des Einzelhändlers Das Web und soziale Netze liefern Zusatzinformationen 5 Big Data: Opportunities / Retail - eine Auswahl Artikel-Logistik Mitbewerb Marketing 6 Abverkaufsoptimierung / Bestandssteuerung / Retourenmanagement • Einbeziehen von zusätzlichen „externen“ Kriterien -> neue Informationsquellen • Effiziente „predictive“ Analytics-Verfahren • Frühzeitiges Erkennen von Veränderungen im Markt • Welche Produkte liegen im Trend? Welche nicht? • Optimierte Mengenschätzung / weniger Lieferengpässe / weniger Ladenhüter Diversifizierung von potentiellen Kundengruppen / Ansprechen neuer Kundengruppen • Umfangreiches Analysieren von Wettbewerber-Auftritten/Publikationen • „Warum kaufen Kunden bestimmte Artikel?“ / Warum kaufen sie beim Wettbewerber?“ • Kontinuierliches Messen von Image • Steuern von Image –Kampagnen über soziale Medien Marketing / Optimierung von Werbemassnahmen • Mehr Informationen über den konkreten Kunden -> z. B. Lebenssituationen • Mehr Merkmale pro Kunde -> Feinere Segementierung (Mikrosegementierung) • Zielgerichtete Angebote für Kunden in speziellen Lebenslagen • Differenzierte Marketing-Kampagnen -> Minimierung von Marketing – Aufwand • Neue Wege für Marketing und Direktwerbung Big Data: Opportunities / Retail - eine Auswahl Direkt-Kontakt Online-Präsenz Cross Selling 7 Call Center / Beratungsgespräche / Service-Kontakte Anreichern der bestehenden CRM-Daten um • Daten aus sozialen Netzwerken • Beziehungsinformationen • Einstreuen von zusätzlichen Informationen in Real Time • Spontane Angebote / Spezielle Bonuslösungen • Agilitäten in der Gestaltung von Online – Presentationen • Schnelleres Austauschen von „Rennern / Pennern“ • Analysieren der Schwachstellen des Online - Auftritts • Image-Pflege Cross-Selling-Angebote an bekannten Kundenstamm • Mehr Informationen über den konkreten Kunden -> z. B. Lebenssituationen • Einbeziehen von regionalen Einflüssen • Einbeziehen von sozialen Kundensituationen / Familienzusammenhänge • Feststellen von typischen Kauf-Szenarien -> z. B. Kollektionen • Mehr Umsatz pro Kunde Big Data: Opportunities – eine Auswahl Automobil Versicherungen Gesundheit 8 Sensoren an vielen Stellen / Jederzeit-Kommunikation über Sim-Karten • Individuelle Wartungsplan-Angebote an Kunden • Zusätzliche Informationen über die Art der Verwendung eines Fahrzeugs / Extras -> Weiterentwicklung des Produkts: Auto • Geo-Information über die Art und Vorkommen von Verkehr -> Verkehrsplanung, Infrastruktur Einbeziehen von Text-Dokumenten in die Wissens- und Entscheidungsbasis Brief- und Mailverkehr Hinzuziehen von zusätzlichen Informationen z. B. von „Social Media“ • Individualisierte Angebote • Genauere Risikobewertung Analysieren von Text-basierten Krankenakten • Dokumentation historischer Krankheitsverläufe • Finden von Ähnlichkeiten in den Krankheitsverläufen • Aufdecken unbekannter Zusammenhänge • Vorhersagen von Entwicklungen Beispiele für Big Data Anwendungsfälle AUTOMOTIVE Auto sensors reporting location, problems HIGH TECHNOLOGY / INDUSTRIAL MFG. Mfg quality Warranty analysis OIL & GAS Drilling exploration sensor analysis 9 Was sind die Retail Merkmale dieser “neuen FINANCIAL / CPG SERVICES Sentiment analysis “Daten? Risk & portfolio analysis Hot products COMMUNICATIONS Location-based advertising Optimized Marketing New products Volume, Velocity, Variety LIFE SCIENCES Clinical trials Genomics MEDIA/ ENTERTAINMENT Viewers / advertising effectiveness Cross Sell ON-LINE SERVICES / SOCIAL MEDIA People & career matching Web-site optimization TRAVEL & Diese Eigenschaften überfordern UTILITIES TRANSPORTATION Smart Meter analysis for bestehende Sensor System-Architekturen analysis for optimal traffic flows Games Adjust to player behavior In-Game Ads Customer sentiment network capacity, EDUCATION & RESEARCH Experiment sensor analysis HEALTH CARE Patient sensors, monitoring, EHRs Quality of care LAW ENFORCEMENT & DEFENSE Threat analysis social media monitoring, photo analysis Big Data: Analyse-Prozesse + Infrastruktur 1. Mit Bestandsdaten beginnen (High Density Data) – Analysen in dem bestehenden Data Warehouse – Fragestellungen finden – Fokussierung auf relevante Bereiche finden 2. Neue Datenquellen erschließen – Datenhaltung für „Data Variety und Volume“ – Big Data Analysen – „Reduzierte Ergebnisse“ mit bestehendem Bestand koppeln 3. Ergebnisse bereitstellen / anwenden – Prozessunterstützung / -steuerung 4. 10 Erweiterte Analysen Copyright © 2012, Oracle and/or its affiliates. All rights reserved. Step 0: Bestehende Analyse-Plattform High Density Data Oracle Database Oracle BI Enterprise Edition Acquire 11 Organize Analyze Decide • Dashboard • Ad-Hoc Query Step 1: Tiefergehende Analyse der bestehenden Daten (Advanced Analytics) High Density Data Oracle Database Oracle BI Enterprise Edition Spatial and Graph Advanced Analytics Acquire 12 Organize Analyze Decide • Dashboard • Ad-Hoc Query • Segmentierung • Locality Step 2: Neue Techniken für “Volume and Variety” High Density Data Low Density Batch Data Oracle Database Hadoop Spatial and Graph Aggregate Pre-Analyze Acquire 13 Oracle BI Enterprise Edition Organize • Segmentierung • Locality • Beziehungen • Meinungen • Aktivitäten Advanced Analytics Analyze • Dashboard • Ad-Hoc Query Decide Step 3: Neue Techniken für “Velocity” High Density Data Low Density Batch Data Oracle Database Hadoop Spatial and Graph Aggregate Pre-Analyze Streaming Data Oracle BI Enterprise Edition Advanced Analytics Model Real Time Decisions Event Processing Act Acquire 14 Organize Analyze Decide • Dashboard • Ad-Hoc Query • Segmentierung • Locality • Beziehungen • Meinungen • Aktivitäten • Empfehlungen • Aktionen Step 4: Neue Muster finden / Analysieren Endeca Information Discovery High Density Data Low Density Batch Data Oracle Database Hadoop Spatial and Graph Aggregate Pre-Analyze Streaming Data Oracle BI Enterprise Edition Advanced Analytics Model Real Time Decisions Event Processing Act Acquire 15 Organize Analyze Decide • Dashboard • Ad-Hoc Query • Segmentierung • Locality • Beziehungen • Meinungen • Aktivitäten • Empfehlungen • Aktionen • Neue Aspekte entdecken Architekturen und Szenarien Externe Daten Interne Daten Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Enterprise Information Harmonisierung Prüfen Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) Interactive Dashboards Kennzahlen Sandbox SQL Reporting & Publishing Hodoop Loader Guide Search &Experiences HDFS noSQL DB Hadoop Map Reduce Framework 16 User View Event Processing Realtime Decision Realtime Decisions Predictive Analytics & Mining Die technischen Komponenten 17 Oracle Engineered Systems Simplify IT – Simplify Big Data Oracle Big Data Appliance Oracle Exadata InfiniBand Oracle Exalytics • Dashboard • Ad-Hoc Query • Segmentierung • Locality • Beziehungen • Meinungen • Aktivitäten InfiniBand • Empfehlungen • Aktionen • Neue Aspekte entdecken Acquire 18 Organize Analyze Decide Oracle Big Data Platform Optimized for Hadoop, R, and NoSQL Processing Oracle Big Data Connectors Hadoop Open Source R Oracle Event Processing Oracle NoSQL Database Oracle Big Data Connectors Oracle Exadata Oracle Exalytics “System of Record” Optimized for DW/OLTP Optimized for Analytics & In-Memory Workloads Oracle Advanced Analytics Data Warehouse Oracle Data Integrator Oracle Database In-Database Analytics Oracle Big Data Appliance Oracle Enterprise Performance Management Oracle Business Intelligence Applications Oracle Business Intelligence Tools Oracle Endeca Information Discovery Applications Embeds Times Ten Stream 19 19 Acquire Organize Discover & Analyze Real Time Decisions Oracle Big Data Appliance Vorinstallierte HadoopKomponenten Hohe Performance des Hadoop Frameworks Integriert mit Exadata Geringeres TCO for Big Data-Szenarien 20 Big Data Appliance Hardware + Software Full Rack Configuration Hardware Software 216 Intel® Xeon® Processors 864 GB total memory 48 GB per node 648TB total raw storage capacity 216 3TB 7200RPM Drives 40Gb/sec InfiniBand Network 10Gb/sec Data Center Connectivity Cloudera CDH Cloudera Manager Oracle Enterprise Manager Grid Control Plug-In for BDA NoSQL DB Community Edition Open Source R 21 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. Big Data Hardware – Business As Usual Physische Installation (10 Racks) 286 Stunden Elektriker Netzwerk Engineers Storage Engineers System Admins 236 Stunden, 616 Kabel 264 Stunden, 864 Kabel 320 Stunden, 576 Kabel 232 Stunden Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel 22 Oracle Big Data Appliance Installation 38 vs. 1306 Pers.Std. 19 vs. 677 Zeit-Std. 46 vs. 2344 Kabel vs. Physische Installation (10 Racks) 23 Elektriker Netzwerk Engineers Storage Engineers System Admins 286 Stunden 236 Stunden, 616 Kabel 264 Stunden, 864 Kabel 320 Stunden, 576 Kabel 232 Stunden 16 Stunden 16 Stunden, 32 Kabel 6 Stunden, 14 Kabel Nicht nötig Nicht nötig Copyright © 2012, Oracle and/or its affiliates. All rights reserved. Oracle Big Data Connectors – Release 2 Oracle SQL Connector for Hadoop – Low-latency SQL Queries aus der Datenbank heraus und direkt auf Hive Tabellen – Automatische External Table Erstellung für Hive Zugriffe und für generierte Data Pump Files – Automatisches Mapping von External Table Definitionen aus Data Files Oracle R Connector for Hadoop – HIVE Tables als Data Source für R-Analysen – Transparent er Support für Sprache R auf HIVE Tabellen – Inkrementelle Abfrage-Erstellung – Modell-Erstellung in Hadoop => Anwenden des Modells in der Oracle-Datenbank 24 Importieren von Big Data - Daten in die Oracle Datenbank Oracle Loader for Hadoop MAP Pre-Processing in Hadoop und anschliessendes Laden Schnell und effizient REDUCE MAP MAP SHUFFLE /SORT MAP REDUCE MAP Online / offline Modus 25 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. MAP REDUCE REDUCE SHUFFLE /SORT REDUCE Direct Access from Oracle Database Oracle SQLConnector for HDFS Oracle Database HDFS SQL Zugriff auf HDFS SQL Query External Table Sicht aus der Datenbank heraus Daten – Abfragen aus der Datenbank heraus und sofortiges Laden in die DB 26 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. External Table Infini Band DCH DCH DCH HDFS Client Oracle R Enterprise – Predictive Analytics User R Engine Database Server Maschine R Engine(s) managed by Oracle DB R Engine Other R packages SQL Oracle Database R Oracle R Enterprise packages Results User tables Lineare Modelle Clusterung Segmentierung Neuronale Netze Copyright © 2012, Oracle and/or its affiliates. All rights reserved. Other R packages Oracle R Enterprise packages Results MapReduce Nodes Hadoop Cluster (BDA) 27 R Engine HDFS Nodes Big Data Analysis Using R On Hadoop Oracle R Connector for Hadoop Client / Host Native R MapReduce Native R HDFS Access Improved productivity Faster, scalable 28 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. Oracle Big Data Oracle Exadata Appliance R Engine R Engine ORCH ORCH Hadoop Cluster Software MapReduce Nodes HDFS R Engine Zusammenfassung Big Data for the Enterprise Optimierte und Vollständige Gesamtlösung – Alles, was man benötigt, um Massendaten mit mehr weichen Informationen zu speichern Integriertes Gesamt-Set (auch mit Oracle Exadata) Schnell einsetzbar – Installation and Setup Single Vendor Support – Oracle Support für alle Komponenten 29 DATA WAREHOUSE 31 Simplifying MapReduce Oracle Data Integrator Application Adaptor for Hadoop Generieren für Map Reduce Aufrufe Steueren und Verwalten des gesamten Prozesses Laden der Data ind die Warehouse DB 32 Copyright © 2012, Oracle and/or its affiliates. All rights reserved. Oracle Data Integrator Oracle Loader for Hadoop