Big Data SQL

Werbung
Connectivity zwischen den Welten
Integration operativer Systeme, Data Warehouse und
Hadoop-Plattform
Christoph Blessing
Systemberatung Stuttgart
Copyright © 2014, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for
information purposes only, and may not be incorporated into any contract. It is not a
commitment to deliver any material, code, or functionality, and should not be relied upon
in making purchasing decisions. The development, release, and timing of any features or
functionality described for Oracle’s products remains at the sole discretion of Oracle.
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Agenda
1
Oracle Big Data Connectors
Analyse, Laden, SQL
2
Oracle Big Data SQL
SQL Zugriff innerhalb der Oracle Engineered Systems
3
Oracle GoldenGate
Real-time Replikation in die Hadoop-Welt
4
Oracle Data Integrator
Modellierung , Steuerung, Ablauf
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Business Mehrwerte über Technologie Innovation
Die passende Technologie für entsprechende Aufgaben UND
Technologien im Verbund nutzen
Hadoop
Neue Geschäftsmodelle und
Optionen
Relational
NoSQL
Scale the Business
Run the Business
 Schneller Daten bereitstellen
 Integration von Systemen
 Wettbewerbern zuvor kommen
 Herausforderung “Mobility”
 Kritische Geschäftsprozesse
 Vollständige Informationsketten
 Ökononisch sinnvolle Skalierung
 Investitionsschutz
 Neu Paradigmen nutzen
 Eingespielte Verfahren und
Know-How
 Neue Analysearten
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
5
Big Data Integration
Daten
Aufbereitung
Daten
Bereitstellung
Wünschenswerte Funktionalitäten:
• Verwendung bekannter Schnittstellen
• Einheitliche Zugriffsmethoden
• Einfache Anwendung
Datenzugriff
• Performanz
Datenladung
Real-time
Replication
Exploratory
Analysis
Data Reservoir
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Deep
Analytics
Oracle Big Data Connectors
Analyse, Laden, SQL
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Big Data Connectors
R Client
R Analytics
Oracle R Advanced Analytics
on Hadoop
Optimiert für Hadoop:
• Unterstützt Cloudera, Hortonworks
und Apache Hadoop
XQuery
XML/XQuery
Oracle XQuery on Hadoop
Zielsetzung:
• Schnittstelle zur Oracle Datenbank mit
bekannten Techniken
• Höchstmöglicher Datendurchsatz
Datenladung
Oracle Loader for Hadoop
Datenzugriff
Oracle SQL Connector for
HDFS
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle XQuery for Hadoop
for $line in text:collection("mydata/visits*.log")
let $split := fn:tokenize($line, "\s*,\s*")
where $split[2] eq "kelly"
return text:put($line)
Text, Avro,
JSON, XML
Seq. File
Oracle NoSQL
• Massiv skalierbare XQuery
Verarbeitung in Hadoop
• Automatisch verteilte XQuery
Engines im Hadoop Cluster
• Query XML für Hive mit SQL-XML
Erweiterungen
• Oozie Integration
• Erweiterbare Funktionsbasis
mit Java
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle XQuery for Hadoop
Ausgabe Optionen
for $line in text:collection("mydata/visits*.log")
let $split := fn:tokenize($line, "\s*,\s*")
where $split[2] eq "kelly"
return text:put($line)
Oracle Datenbank
Text, Avro,
JSON, XML
Seq. File
Oracle NoSQL
Oracle NoSQL Datenbank
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle R Advanced Analytics for Hadoop
R Client
R Algorithmen: Neural, GLM, LM kMeans, NMF,
LMF, Data movement, sampling, statistics
Parallel MapReduce Calls
Hadoop*
*HDFS, Hive, Spark Cache
Oracle DB, lokale Dateien
• Gewohntes R Interface
• Hadoop Abstraktionslayer
• R Sprache zur Formulierung
Mapper/Reducer Logik
• Oracle R Enterprise ähnliche
Erweiterungen für HIVE
• Vorinstallierte prädiktive Analyse
Algorithmen
• Aktuell: Neural und GLM redesigned
für den Zugriff über Spark
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Loader for Hadoop
Input
Text
Avro
Parquet
Hive
Log
files
JSON
NoSQL
Und mehr …
Sequence
files
Compressed
files
• Optimiertes Laden, z.B. über
OCI Direct Path in Oracle DB
• Hauptlast auf Hadoop nicht
auf DB Seite
• Oracle Datentypkonvertierung
auf Hadoop Seite
• On/Offline Betrieb
• Laden dedizierter Hive
Partitionen
Output
DB Offline
Text
DBPump
• Autom. Load Balancing
• Kerberos Authentifizierung
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle SQL Connector for HDFS
• SQL-Abfragen auf HDFS und
Hive
OSCH
OSCH
External
Table
OSCH
• External Table Tool
OSCH
Text
Hive
Compressed
Files
DB Pump
Files
• Zugriff über External Table
create table customer_address
( ca_customer_id
number(10,0)
, ca_street_number char(10)
, ca_state
char(2)
, ca_zip
char(10))
organization external (
TYPE ORACLE_LOADER
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS
(…)
PREPROCESSOR “OSCH_BIN_PATH:hdfs_stream”)
LOCATION (‘addr1’, ‘addr2’, ‘addr3’))
• Parallelität durch Hadoop und
Oracle Datenbank
• Preprocessor hdfs_stream
• Zugriff dedizierter HIVE
Partitions
• Kerberos Authentifizierung
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Big Data Connectors
Mehrwerte
• Verbindet die Oracle DB mit dem Hadoop Ökosystem
• Nutzt optimal die Techniken beider Welten – z.B. Parallelisierung
• Vereinfacht den Einstieg durch Nutzung bekannter Sprachen
• Erkenntnisse aus der Big Data Aufbereitung können unmittelbar ins
Enterprise DWH einfließen
• Auslagerung/Archivierung von Datenbankinformationen nach Hadoop aber mit ständiger Zugriffsmöglichkeit aus der DB
• Technik ist offen für individuelle Anpassungen/Erweiterungen
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Big Data SQL
SQL Zugriff innerhalb der Oracle Engineered Systems
Big Data Appliance
Exadata
+
+
Cloudera Hadoop
Oracle Datenbank
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Big Data SQL
SQL Abfragen in der Oracle DB für Hadoop & Oracle NoSQL, HBase
Oracle Database
Storage Server
Hive metadata
HDFS
Name Node
HDFS
Data Node
HDFS
Data Node
Big Data Appliance
+
Cloudera Hadoop
Big Data SQL
All Daten mittels Oracle
SQL zugreifen
Smart Scan Funktionalität
auf Hadoop zur
Optimierung des Zugriffs
Oracle Catalog
Hive metadata
External Table
External Table
create table customer_address
( ca_customer_id
number(10,0)
, ca_street_number char(10)
, ca_state
char(2)
, ca_zip
char(10))
organization external (
TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS
(com.oracle.bigdata.cluster hadoop_cl_1)
LOCATION ('hive://customer_address')
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
)
Exadata
+
Oracle Datenbank
Oracle Big Data SQL
Mehrwerte
• Storage Software auf BDA Seite, nutzt Funktionalitäten wie:
– Storage Indizes
– Caching
– Lokales Filtern – Smart Scan
Reduzierter Datenverkehr zur Datenbank
Schnelle Ergebnisse durch die intelligente Kombination von
Hardware & Software
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Agenda
1
Oracle Big Data Connectors
Analyse, Laden, SQL
2
Oracle Big Data SQL
SQL Zugriff innerhalb der Oracle Engineered Systems
3
Oracle GoldenGate
Real-time Replikation - auch in die Hadoop-Welt
4
Oracle Data Integrator
Modellierung , Steuerung, Ablauf
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Data Integration
Umfassende Datenintegrationsplattform für heterogene Infrastrukturen
Daten Replikation
– Fortlaufende Datenbereitstellung
Oracle GoldenGate
Oracle Data Integrator
Data Service Integrator
(Movement)
(Transformation)
(Federation)
Daten Transformation
— Außerhalb oder innerhalb Hadoop
Daten Föderation
ELT Processing
on Hadoop or SQL
– Datenzusammenführung
überTechnologiegrenzen hinweg
Fast
Load
Continuous Availability
Data Governence
–
–
–
–
–
Datenaufbereitung
Daten Profiling und Cleansing
Daten Verifizierung
Metadata Management
Business Glossar
– Lineage und Impact Analyse
Data Governance
Foundation
Enterprise Data Quality
GoldenGate Veridata
(Profile, Cleanse, Match and De-duplicate)
(Online Data Verification)
Enterprise Metadata Management & Business Glossary
(Business Glossary, Data Lineage, Impact Analysis and Data Provenance)
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
19
Oracle GoldenGate
Real-time Replikation - auch in die Hadoop-Welt
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
GoldenGate for Big Data
Low-Impact Real-Time Daten Integration bzw. transaktionale Replikation
• Bewährtes Replikationswerkzeug im heterogenen IT Umfeld
• Im Kern GoldenGate + Big Data Connectoren
Capture Database Transactions and
Deliver to Big Data in Real-Time
HDFS (Files)
HBase (NoSQL)
Hive(SQL)
Capture
JMS
Trail
Pump
Route
Deliver
Oracle
GoldenGate
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Flume (Streaming)
Oracle GoldenGate
Mehrwerte
• Datentransfer mit sehr geringen Latenzzeiten
• Bringt kaum zusätzliche Last auf dem Quell- oder Zielsystem
• Nicht nur für Bulk-Loads, sondern vor allem für den fortlaufenden
inkrementellen Update
• Entkoppelte Prozesskette – z.B. Datenpufferung bei Netzwerkausfall
• Integriert mit Oracle Data Integrator – Change Data Capture im ETL-Prozess
• Big Data Connectoren basieren auf dem GG Java Adapter und sind
änder-/ erweiterbar
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Data Integrator
Modellierung, Generierung und Steuerung der Datenintegration
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Design Once, Run Anywhere
• Verwendung nativer Techniken/Sprachen
der Datenquelle und des Datenziels
– Einbinbar in heterogene Landchaften
– Optimiert für Performanz und
Hive
Reduktion des Netzwerkverkehrs
Techniken und Sprachen
Spark
SQL
JSON
XML etc.
Pig
Künftige
Technik
• Deklaratives Design
– Was will ich, wie soll es implementiert
werden?
– Grafische Datenfluss-Modellierung
• Erweiterbar
– Z.B. über sogenannte Knowledge Module
– Einbindbar in Service Architektur
Agent
Oozie
Künftige
Engines
Ausführungsinstanzen
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Company Confidential
Oracle Company Confidential
24
Big Data Features in ODI 12.1.3.0.1
ODI Kernfunktionalität für Big Data
•
•
•
•
Aktueller Hive JDBC Driver
Überarbeitete Knowledge Module für Hive, Sqoop, OLH/OSCH, HDFS, HBase
Vebesserte Tools für HDFS File Copy, Management, FTP
Operatoren für “Flatten” und “Jagged”
ODI Advanced Big Data Option
• Code-Generierung für Spark
• Code-Generierung für Pig
• Datenintegrationsmodell ausführbar via Oozie
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Oracle Confidential – Internal/Restricted/Highly Restricted
25
Oracle Data Integrator
Mehrwerte
• Tools Einsatz vs. individueller Kodierung
– Deklaratives entwickeln
– Optimale Code-Genierung für die jeweilige Technik
– Zentrale Fehlerlogs
– Dokumentation und Nachvollziehbarkeit
– Standardwerkzeug aber dennoch erweiterbar
Zentraler Dreh- und Angelpunkt für klassische und aktuelle
Datenintegrationsaufgaben – z.B. ETL, SOA, Big Data etc.
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Demo
Big Data Lite 4.2 Demo VM
Download: otn.oracle.com -> Pre-Built Developer VMs
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Daten Integrations Demo mit Big Data Lite VBox
Oracle
GoldenGate
OGG
(Hive/Flume)
OGG
ODI
Movie
Oracle DB
Oracle Data
Integrator
Merge Movies
(Hive)
Calculate Rating
(Hive/Spark/Pig)
ODI
ODI
Load Movies MovieUpdates
(Sqoop)
Movie
Load Oracle
OLH/OSCH
ODI
MovieRating
MovieRating
Load Oracle
Big Data SQL
Calc Purchases
(Oracle)
ODI
Application
Logs
Flume
CountrySales
Activity
Sessionize Activity
(Pig OS Call)
Customer
ODI
Customer
SessionStats
Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Confidential – Internal/Restricted/Highly Restricted
28
Zusammenfassung
• Oracle bietet ein komplettes Toolset zur Integration operativer Systeme,
Data Warehouse und der Hadoop-Plattform
• Innovationszyklen im Big Data Thema spiegeln sich in Oracle Produkten
kurzfristig wieder
• Oracle Big Data Connectors
• Oracle Big Data SQL (Oracle Engineered Systems)
• Oracle Golden Gate (for Big Data)
• Oracle Data Integrator (Advanced Big Data Option)
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
38
Copyright © 2014, Oracle and/or its affiliates. All rights reserved.
Herunterladen