Big Data – Nur ein Hype?

Werbung
Big Data – Nur ein Hype?
”Wer neue Chancen nicht nutzt, verliert”
Alfred Schlaucher, Oracle
Was hat uns bisher interessiert?
Sales & Mktg
Sales &
Operational
Planning
Finance
Engineering
Service
Supply
Management
2
Production
Information
Technology
Warum und wie Big Data jetzt?
 Beiläufig entstehende Daten
 Maschinen-generierte
Massendaten
 Kommunikations-Daten
 Geo-Daten
 Low Density-Daten
1. Neue Geschäftsideen
2. Bessere Einsichten
3. Optimierte Prozess
3
• Was sind interessante Daten
• Wie sind sie zu speichern
• Welche Analysetechnik /
Verfahren
• Welche Kosten entstehen?
Fahnungserfolg durch massenhaftes Sammeln
von Daten
• Abscannen von allen KFZ-Kennzeichen an
7 Autobahnabschnitten über mehrere Monate hinweg
• Hinzuziehen von Verbindungsdaten der
Mobilfunkmasten
4
Die Motivation:
Z. B. Versandhandel und Web Shops
Ein guter Einzelhändler kennt seine
Kunden
Er kennt die Gewohnheiten und
Lebensumstände
Er empfiehlt zielgerichtet und
individuell
Daten über Kunden und
Kaufhistorien ersetzen im
Versandhandel und Webshop das
Wissen des Einzelhändlers
Das Web und soziale Netze liefern
Zusatzinformationen
5
Big Data: Opportunities / Retail - eine Auswahl
Artikel-Logistik
Mitbewerb
Marketing
6
Abverkaufsoptimierung / Bestandssteuerung / Retourenmanagement
• Einbeziehen von zusätzlichen „externen“ Kriterien -> neue Informationsquellen
• Effiziente „predictive“ Analytics-Verfahren
• Frühzeitiges Erkennen von Veränderungen im Markt
• Welche Produkte liegen im Trend? Welche nicht?
• Optimierte Mengenschätzung / weniger Lieferengpässe / weniger Ladenhüter
Diversifizierung von potentiellen Kundengruppen / Ansprechen neuer Kundengruppen
• Umfangreiches Analysieren von Wettbewerber-Auftritten/Publikationen
• „Warum kaufen Kunden bestimmte Artikel?“ / Warum kaufen sie beim Wettbewerber?“
• Kontinuierliches Messen von Image
• Steuern von Image –Kampagnen über soziale Medien
Marketing / Optimierung von Werbemassnahmen
• Mehr Informationen über den konkreten Kunden -> z. B. Lebenssituationen
• Mehr Merkmale pro Kunde -> Feinere Segementierung (Mikrosegementierung)
• Zielgerichtete Angebote für Kunden in speziellen Lebenslagen
• Differenzierte Marketing-Kampagnen -> Minimierung von Marketing – Aufwand
• Neue Wege für Marketing und Direktwerbung
Big Data: Opportunities / Retail - eine Auswahl
Direkt-Kontakt
Online-Präsenz
Cross Selling
7
Call Center / Beratungsgespräche / Service-Kontakte
Anreichern der bestehenden CRM-Daten um
• Daten aus sozialen Netzwerken
• Beziehungsinformationen
• Einstreuen von zusätzlichen Informationen in Real Time
• Spontane Angebote / Spezielle Bonuslösungen
•
Agilitäten in der Gestaltung von Online – Presentationen
• Schnelleres Austauschen von „Rennern / Pennern“
• Analysieren der Schwachstellen des Online - Auftritts
• Image-Pflege
Cross-Selling-Angebote an bekannten Kundenstamm
• Mehr Informationen über den konkreten Kunden -> z. B. Lebenssituationen
• Einbeziehen von regionalen Einflüssen
• Einbeziehen von sozialen Kundensituationen / Familienzusammenhänge
• Feststellen von typischen Kauf-Szenarien -> z. B. Kollektionen
• Mehr Umsatz pro Kunde
Big Data: Opportunities – eine Auswahl
Automobil
Versicherungen
Gesundheit
8
Sensoren an vielen Stellen / Jederzeit-Kommunikation über Sim-Karten
• Individuelle Wartungsplan-Angebote an Kunden
• Zusätzliche Informationen über die Art der Verwendung eines Fahrzeugs / Extras
-> Weiterentwicklung des Produkts: Auto
• Geo-Information über die Art und Vorkommen von Verkehr
-> Verkehrsplanung, Infrastruktur
Einbeziehen von Text-Dokumenten in die Wissens- und Entscheidungsbasis
Brief- und Mailverkehr
Hinzuziehen von zusätzlichen Informationen z. B. von „Social Media“
• Individualisierte Angebote
• Genauere Risikobewertung
Analysieren von Text-basierten Krankenakten
• Dokumentation historischer Krankheitsverläufe
• Finden von Ähnlichkeiten in den Krankheitsverläufen
• Aufdecken unbekannter Zusammenhänge
• Vorhersagen von Entwicklungen
Beispiele für Big Data Anwendungsfälle
AUTOMOTIVE
Auto sensors
reporting
location,
problems
HIGH TECHNOLOGY /
INDUSTRIAL MFG.
Mfg quality
Warranty analysis
OIL & GAS
Drilling
exploration
sensor analysis
9
Was sind die Retail
Merkmale
dieser
“neuen
FINANCIAL
/ CPG
SERVICES
Sentiment
analysis
“Daten?
Risk & portfolio analysis
Hot products
COMMUNICATIONS
Location-based
advertising
Optimized Marketing
New products
Volume, Velocity, Variety
LIFE
SCIENCES
Clinical trials
Genomics
MEDIA/
ENTERTAINMENT
Viewers / advertising
effectiveness
Cross Sell
ON-LINE
SERVICES /
SOCIAL
MEDIA
People & career
matching
Web-site
optimization
TRAVEL &
Diese Eigenschaften
überfordern
UTILITIES
TRANSPORTATION
Smart Meter
analysis for
bestehende Sensor
System-Architekturen
analysis for
optimal traffic flows
Games
Adjust to
player
behavior
In-Game Ads
Customer sentiment
network
capacity,
EDUCATION &
RESEARCH
Experiment
sensor analysis
HEALTH CARE
Patient sensors,
monitoring, EHRs
Quality of care
LAW
ENFORCEMENT
& DEFENSE
Threat analysis social media
monitoring, photo
analysis
Big Data: Analyse-Prozesse + Infrastruktur
1.
Mit Bestandsdaten beginnen (High Density Data)
– Analysen in dem bestehenden Data Warehouse
– Fragestellungen finden
– Fokussierung auf relevante Bereiche finden
2.
Neue Datenquellen erschließen
– Datenhaltung für „Data Variety und Volume“
– Big Data Analysen
– „Reduzierte Ergebnisse“ mit bestehendem Bestand koppeln
3.
Ergebnisse bereitstellen / anwenden
– Prozessunterstützung / -steuerung
4.
10
Erweiterte Analysen
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Step 0: Bestehende Analyse-Plattform
High
Density
Data
Oracle
Database
Oracle BI
Enterprise
Edition
Acquire
11
Organize
Analyze
Decide
• Dashboard
• Ad-Hoc Query
Step 1: Tiefergehende Analyse der bestehenden
Daten (Advanced Analytics)
High
Density
Data
Oracle
Database
Oracle BI
Enterprise
Edition
Spatial and
Graph
Advanced
Analytics
Acquire
12
Organize
Analyze
Decide
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
Step 2: Neue Techniken für “Volume and Variety”
High
Density
Data
Low
Density
Batch Data
Oracle
Database
Hadoop
Spatial and
Graph
Aggregate
Pre-Analyze
Acquire
13
Oracle BI
Enterprise
Edition
Organize
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
Advanced
Analytics
Analyze
• Dashboard
• Ad-Hoc Query
Decide
Step 3: Neue Techniken für “Velocity”
High
Density
Data
Low
Density
Batch Data
Oracle
Database
Hadoop
Spatial and
Graph
Aggregate
Pre-Analyze
Streaming
Data
Oracle BI
Enterprise
Edition
Advanced
Analytics
Model
Real Time
Decisions
Event
Processing
Act
Acquire
14
Organize
Analyze
Decide
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
• Empfehlungen
• Aktionen
Step 4: Neue Muster finden / Analysieren
Endeca Information Discovery
High
Density
Data
Low
Density
Batch Data
Oracle
Database
Hadoop
Spatial and
Graph
Aggregate
Pre-Analyze
Streaming
Data
Oracle BI
Enterprise
Edition
Advanced
Analytics
Model
Real Time
Decisions
Event
Processing
Act
Acquire
15
Organize
Analyze
Decide
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
• Empfehlungen
• Aktionen
• Neue Aspekte
entdecken
Architekturen und Szenarien
Externe Daten
Interne Daten
Klassisches BI
Kunden
Lieferanten
Produkte
Mitarbeiter
Lager
Verkäufe
Buchhaltung
Log Files
Web-Clicks
Mails
Call-Center
Verträge
Berichte
Kurse
Webservices
Kaufdaten
Integration
Enterprise Information
Harmonisierung
Prüfen
Stammdaten
Referenzdaten
Umsätze / Fakten
Relational Database Oracle 12c (DWH)
Interactive
Dashboards
Kennzahlen
Sandbox
SQL
Reporting &
Publishing
Hodoop Loader
Guide Search
&Experiences
HDFS
noSQL DB
Hadoop
Map Reduce Framework
16
User View
Event
Processing
Realtime
Decision
Realtime
Decisions
Predictive
Analytics &
Mining
Die technischen
Komponenten
17
Oracle Engineered Systems
Simplify IT – Simplify Big Data
Oracle
Big Data
Appliance
Oracle
Exadata
InfiniBand
Oracle
Exalytics
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
InfiniBand





• Empfehlungen
• Aktionen
• Neue Aspekte
entdecken
Acquire
18
Organize
Analyze
Decide
Oracle Big Data Platform
Optimized for Hadoop,
R, and NoSQL Processing
Oracle
Big Data
Connectors
Hadoop
Open Source R
Oracle Event
Processing
Oracle NoSQL
Database
Oracle Big Data
Connectors
Oracle
Exadata
Oracle
Exalytics
“System of Record”
Optimized for DW/OLTP
Optimized for
Analytics & In-Memory Workloads
Oracle
Advanced
Analytics
Data
Warehouse
Oracle Data
Integrator
Oracle
Database
In-Database Analytics
Oracle Big Data
Appliance
Oracle Enterprise
Performance Management
Oracle Business Intelligence
Applications
Oracle Business Intelligence
Tools
Oracle Endeca Information
Discovery
Applications
Embeds Times Ten
Stream
19
19
Acquire
Organize
Discover & Analyze
Real Time
Decisions
Oracle Big Data Appliance
Vorinstallierte HadoopKomponenten
Hohe Performance des
Hadoop Frameworks
Integriert mit Exadata
Geringeres TCO for Big
Data-Szenarien
20
Big Data Appliance Hardware + Software
Full Rack Configuration
Hardware
Software
216 Intel® Xeon® Processors
864 GB total memory
48 GB per node
648TB total raw storage
capacity
216 3TB 7200RPM Drives
40Gb/sec InfiniBand Network
10Gb/sec Data Center
Connectivity
Cloudera CDH
Cloudera Manager
Oracle Enterprise Manager Grid
Control Plug-In for BDA
NoSQL DB Community Edition
Open Source R
21
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Big Data Hardware – Business As Usual
Physische
Installation
(10 Racks)
286 Stunden
Elektriker
Netzwerk
Engineers
Storage
Engineers
System
Admins
236 Stunden,
616 Kabel
264 Stunden,
864 Kabel
320 Stunden,
576 Kabel
232 Stunden
Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel
22
Oracle Big Data Appliance Installation
38 vs. 1306 Pers.Std.
19 vs. 677 Zeit-Std.
46 vs. 2344 Kabel
vs.
Physische
Installation
(10 Racks)
23
Elektriker
Netzwerk
Engineers
Storage
Engineers
System
Admins
286 Stunden
236 Stunden,
616 Kabel
264 Stunden,
864 Kabel
320 Stunden,
576 Kabel
232 Stunden
16 Stunden
16 Stunden,
32 Kabel
6 Stunden,
14 Kabel
Nicht nötig
Nicht nötig
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Oracle Big Data Connectors – Release 2
 Oracle SQL Connector for Hadoop
– Low-latency SQL Queries aus der Datenbank heraus und
direkt auf Hive Tabellen
– Automatische External Table Erstellung für Hive Zugriffe und für
generierte Data Pump Files
– Automatisches Mapping von External Table Definitionen aus Data Files
 Oracle R Connector for Hadoop
– HIVE Tables als Data Source für R-Analysen
– Transparent er Support für Sprache R auf HIVE Tabellen
– Inkrementelle Abfrage-Erstellung
– Modell-Erstellung in Hadoop => Anwenden des Modells in der Oracle-Datenbank
24
Importieren von Big Data - Daten in die
Oracle Datenbank Oracle Loader for Hadoop
MAP
Pre-Processing in
Hadoop und
anschliessendes Laden
Schnell und effizient
REDUCE
MAP
MAP
SHUFFLE
/SORT
MAP
REDUCE
MAP
Online / offline Modus
25
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
MAP
REDUCE
REDUCE
SHUFFLE
/SORT
REDUCE
Direct Access from Oracle Database
Oracle SQLConnector for HDFS
Oracle Database
HDFS
SQL Zugriff auf HDFS
SQL Query
External Table Sicht aus
der Datenbank heraus
Daten – Abfragen aus der
Datenbank heraus und
sofortiges Laden in die
DB
26
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
External
Table
Infini
Band
DCH
DCH
DCH
HDFS
Client
Oracle R Enterprise – Predictive Analytics
User R Engine
Database Server Maschine
R Engine(s) managed by Oracle DB
R Engine
Other R
packages
SQL
Oracle Database
R
Oracle R Enterprise packages
Results
User tables
Lineare Modelle
Clusterung
Segmentierung
Neuronale Netze
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Other R
packages
Oracle R Enterprise packages
Results
MapReduce
Nodes
Hadoop Cluster (BDA)
27
R Engine
HDFS
Nodes
Big Data Analysis Using R On Hadoop
Oracle R Connector for Hadoop
Client / Host
Native R MapReduce
Native R HDFS Access
Improved productivity
Faster, scalable
28
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Oracle Big Data Oracle Exadata
Appliance
R Engine
R Engine
ORCH
ORCH
Hadoop
Cluster
Software
MapReduce
Nodes
HDFS
R Engine
Zusammenfassung
Big Data for the Enterprise
 Optimierte und Vollständige Gesamtlösung
– Alles, was man benötigt, um Massendaten mit mehr weichen
Informationen zu speichern
 Integriertes Gesamt-Set (auch mit Oracle Exadata)
 Schnell einsetzbar
– Installation and Setup
 Single Vendor Support
– Oracle Support für alle Komponenten
29
DATA WAREHOUSE
31
Simplifying MapReduce
Oracle Data Integrator Application Adaptor for Hadoop
Generieren für Map
Reduce Aufrufe
Steueren und Verwalten
des gesamten Prozesses
Laden der Data ind die
Warehouse DB
32
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Oracle
Data
Integrator
Oracle
Loader for
Hadoop
Herunterladen