Connectivity zwischen den Welten Integration operativer Systeme, Data Warehouse und Hadoop-Plattform Christoph Blessing Systemberatung Stuttgart Copyright © 2014, Oracle and/or its affiliates. All rights reserved. | Safe Harbor Statement The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle. Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Agenda 1 Oracle Big Data Connectors Analyse, Laden, SQL 2 Oracle Big Data SQL SQL Zugriff innerhalb der Oracle Engineered Systems 3 Oracle GoldenGate Real-time Replikation in die Hadoop-Welt 4 Oracle Data Integrator Modellierung , Steuerung, Ablauf Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Business Mehrwerte über Technologie Innovation Die passende Technologie für entsprechende Aufgaben UND Technologien im Verbund nutzen Hadoop Neue Geschäftsmodelle und Optionen Relational NoSQL Scale the Business Run the Business Schneller Daten bereitstellen Integration von Systemen Wettbewerbern zuvor kommen Herausforderung “Mobility” Kritische Geschäftsprozesse Vollständige Informationsketten Ökononisch sinnvolle Skalierung Investitionsschutz Neu Paradigmen nutzen Eingespielte Verfahren und Know-How Neue Analysearten Copyright © 2014, Oracle and/or its affiliates. All rights reserved. 5 Big Data Integration Daten Aufbereitung Daten Bereitstellung Wünschenswerte Funktionalitäten: • Verwendung bekannter Schnittstellen • Einheitliche Zugriffsmethoden • Einfache Anwendung Datenzugriff • Performanz Datenladung Real-time Replication Exploratory Analysis Data Reservoir Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Deep Analytics Oracle Big Data Connectors Analyse, Laden, SQL Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Big Data Connectors R Client R Analytics Oracle R Advanced Analytics on Hadoop Optimiert für Hadoop: • Unterstützt Cloudera, Hortonworks und Apache Hadoop XQuery XML/XQuery Oracle XQuery on Hadoop Zielsetzung: • Schnittstelle zur Oracle Datenbank mit bekannten Techniken • Höchstmöglicher Datendurchsatz Datenladung Oracle Loader for Hadoop Datenzugriff Oracle SQL Connector for HDFS Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle XQuery for Hadoop for $line in text:collection("mydata/visits*.log") let $split := fn:tokenize($line, "\s*,\s*") where $split[2] eq "kelly" return text:put($line) Text, Avro, JSON, XML Seq. File Oracle NoSQL • Massiv skalierbare XQuery Verarbeitung in Hadoop • Automatisch verteilte XQuery Engines im Hadoop Cluster • Query XML für Hive mit SQL-XML Erweiterungen • Oozie Integration • Erweiterbare Funktionsbasis mit Java Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle XQuery for Hadoop Ausgabe Optionen for $line in text:collection("mydata/visits*.log") let $split := fn:tokenize($line, "\s*,\s*") where $split[2] eq "kelly" return text:put($line) Oracle Datenbank Text, Avro, JSON, XML Seq. File Oracle NoSQL Oracle NoSQL Datenbank Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle R Advanced Analytics for Hadoop R Client R Algorithmen: Neural, GLM, LM kMeans, NMF, LMF, Data movement, sampling, statistics Parallel MapReduce Calls Hadoop* *HDFS, Hive, Spark Cache Oracle DB, lokale Dateien • Gewohntes R Interface • Hadoop Abstraktionslayer • R Sprache zur Formulierung Mapper/Reducer Logik • Oracle R Enterprise ähnliche Erweiterungen für HIVE • Vorinstallierte prädiktive Analyse Algorithmen • Aktuell: Neural und GLM redesigned für den Zugriff über Spark Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Loader for Hadoop Input Text Avro Parquet Hive Log files JSON NoSQL Und mehr … Sequence files Compressed files • Optimiertes Laden, z.B. über OCI Direct Path in Oracle DB • Hauptlast auf Hadoop nicht auf DB Seite • Oracle Datentypkonvertierung auf Hadoop Seite • On/Offline Betrieb • Laden dedizierter Hive Partitionen Output DB Offline Text DBPump • Autom. Load Balancing • Kerberos Authentifizierung Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle SQL Connector for HDFS • SQL-Abfragen auf HDFS und Hive OSCH OSCH External Table OSCH • External Table Tool OSCH Text Hive Compressed Files DB Pump Files • Zugriff über External Table create table customer_address ( ca_customer_id number(10,0) , ca_street_number char(10) , ca_state char(2) , ca_zip char(10)) organization external ( TYPE ORACLE_LOADER DEFAULT DIRECTORY DEFAULT_DIR ACCESS PARAMETERS (…) PREPROCESSOR “OSCH_BIN_PATH:hdfs_stream”) LOCATION (‘addr1’, ‘addr2’, ‘addr3’)) • Parallelität durch Hadoop und Oracle Datenbank • Preprocessor hdfs_stream • Zugriff dedizierter HIVE Partitions • Kerberos Authentifizierung Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Big Data Connectors Mehrwerte • Verbindet die Oracle DB mit dem Hadoop Ökosystem • Nutzt optimal die Techniken beider Welten – z.B. Parallelisierung • Vereinfacht den Einstieg durch Nutzung bekannter Sprachen • Erkenntnisse aus der Big Data Aufbereitung können unmittelbar ins Enterprise DWH einfließen • Auslagerung/Archivierung von Datenbankinformationen nach Hadoop aber mit ständiger Zugriffsmöglichkeit aus der DB • Technik ist offen für individuelle Anpassungen/Erweiterungen Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Big Data SQL SQL Zugriff innerhalb der Oracle Engineered Systems Big Data Appliance Exadata + + Cloudera Hadoop Oracle Datenbank Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Big Data SQL SQL Abfragen in der Oracle DB für Hadoop & Oracle NoSQL, HBase Oracle Database Storage Server Hive metadata HDFS Name Node HDFS Data Node HDFS Data Node Big Data Appliance + Cloudera Hadoop Big Data SQL All Daten mittels Oracle SQL zugreifen Smart Scan Funktionalität auf Hadoop zur Optimierung des Zugriffs Oracle Catalog Hive metadata External Table External Table create table customer_address ( ca_customer_id number(10,0) , ca_street_number char(10) , ca_state char(2) , ca_zip char(10)) organization external ( TYPE ORACLE_HIVE DEFAULT DIRECTORY DEFAULT_DIR ACCESS PARAMETERS (com.oracle.bigdata.cluster hadoop_cl_1) LOCATION ('hive://customer_address') Copyright © 2014, Oracle and/or its affiliates. All rights reserved. ) Exadata + Oracle Datenbank Oracle Big Data SQL Mehrwerte • Storage Software auf BDA Seite, nutzt Funktionalitäten wie: – Storage Indizes – Caching – Lokales Filtern – Smart Scan Reduzierter Datenverkehr zur Datenbank Schnelle Ergebnisse durch die intelligente Kombination von Hardware & Software Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Agenda 1 Oracle Big Data Connectors Analyse, Laden, SQL 2 Oracle Big Data SQL SQL Zugriff innerhalb der Oracle Engineered Systems 3 Oracle GoldenGate Real-time Replikation - auch in die Hadoop-Welt 4 Oracle Data Integrator Modellierung , Steuerung, Ablauf Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Data Integration Umfassende Datenintegrationsplattform für heterogene Infrastrukturen Daten Replikation – Fortlaufende Datenbereitstellung Oracle GoldenGate Oracle Data Integrator Data Service Integrator (Movement) (Transformation) (Federation) Daten Transformation — Außerhalb oder innerhalb Hadoop Daten Föderation ELT Processing on Hadoop or SQL – Datenzusammenführung überTechnologiegrenzen hinweg Fast Load Continuous Availability Data Governence – – – – – Datenaufbereitung Daten Profiling und Cleansing Daten Verifizierung Metadata Management Business Glossar – Lineage und Impact Analyse Data Governance Foundation Enterprise Data Quality GoldenGate Veridata (Profile, Cleanse, Match and De-duplicate) (Online Data Verification) Enterprise Metadata Management & Business Glossary (Business Glossary, Data Lineage, Impact Analysis and Data Provenance) Copyright © 2014, Oracle and/or its affiliates. All rights reserved. 19 Oracle GoldenGate Real-time Replikation - auch in die Hadoop-Welt Copyright © 2014, Oracle and/or its affiliates. All rights reserved. GoldenGate for Big Data Low-Impact Real-Time Daten Integration bzw. transaktionale Replikation • Bewährtes Replikationswerkzeug im heterogenen IT Umfeld • Im Kern GoldenGate + Big Data Connectoren Capture Database Transactions and Deliver to Big Data in Real-Time HDFS (Files) HBase (NoSQL) Hive(SQL) Capture JMS Trail Pump Route Deliver Oracle GoldenGate Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Flume (Streaming) Oracle GoldenGate Mehrwerte • Datentransfer mit sehr geringen Latenzzeiten • Bringt kaum zusätzliche Last auf dem Quell- oder Zielsystem • Nicht nur für Bulk-Loads, sondern vor allem für den fortlaufenden inkrementellen Update • Entkoppelte Prozesskette – z.B. Datenpufferung bei Netzwerkausfall • Integriert mit Oracle Data Integrator – Change Data Capture im ETL-Prozess • Big Data Connectoren basieren auf dem GG Java Adapter und sind änder-/ erweiterbar Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Data Integrator Modellierung, Generierung und Steuerung der Datenintegration Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Design Once, Run Anywhere • Verwendung nativer Techniken/Sprachen der Datenquelle und des Datenziels – Einbinbar in heterogene Landchaften – Optimiert für Performanz und Hive Reduktion des Netzwerkverkehrs Techniken und Sprachen Spark SQL JSON XML etc. Pig Künftige Technik • Deklaratives Design – Was will ich, wie soll es implementiert werden? – Grafische Datenfluss-Modellierung • Erweiterbar – Z.B. über sogenannte Knowledge Module – Einbindbar in Service Architektur Agent Oozie Künftige Engines Ausführungsinstanzen Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Company Confidential Oracle Company Confidential 24 Big Data Features in ODI 12.1.3.0.1 ODI Kernfunktionalität für Big Data • • • • Aktueller Hive JDBC Driver Überarbeitete Knowledge Module für Hive, Sqoop, OLH/OSCH, HDFS, HBase Vebesserte Tools für HDFS File Copy, Management, FTP Operatoren für “Flatten” und “Jagged” ODI Advanced Big Data Option • Code-Generierung für Spark • Code-Generierung für Pig • Datenintegrationsmodell ausführbar via Oozie Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Confidential – Internal/Restricted/Highly Restricted 25 Oracle Data Integrator Mehrwerte • Tools Einsatz vs. individueller Kodierung – Deklaratives entwickeln – Optimale Code-Genierung für die jeweilige Technik – Zentrale Fehlerlogs – Dokumentation und Nachvollziehbarkeit – Standardwerkzeug aber dennoch erweiterbar Zentraler Dreh- und Angelpunkt für klassische und aktuelle Datenintegrationsaufgaben – z.B. ETL, SOA, Big Data etc. Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Demo Big Data Lite 4.2 Demo VM Download: otn.oracle.com -> Pre-Built Developer VMs Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Daten Integrations Demo mit Big Data Lite VBox Oracle GoldenGate OGG (Hive/Flume) OGG ODI Movie Oracle DB Oracle Data Integrator Merge Movies (Hive) Calculate Rating (Hive/Spark/Pig) ODI ODI Load Movies MovieUpdates (Sqoop) Movie Load Oracle OLH/OSCH ODI MovieRating MovieRating Load Oracle Big Data SQL Calc Purchases (Oracle) ODI Application Logs Flume CountrySales Activity Sessionize Activity (Pig OS Call) Customer ODI Customer SessionStats Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Oracle Confidential – Internal/Restricted/Highly Restricted 28 Zusammenfassung • Oracle bietet ein komplettes Toolset zur Integration operativer Systeme, Data Warehouse und der Hadoop-Plattform • Innovationszyklen im Big Data Thema spiegeln sich in Oracle Produkten kurzfristig wieder • Oracle Big Data Connectors • Oracle Big Data SQL (Oracle Engineered Systems) • Oracle Golden Gate (for Big Data) • Oracle Data Integrator (Advanced Big Data Option) Copyright © 2014, Oracle and/or its affiliates. All rights reserved. Copyright © 2014, Oracle and/or its affiliates. All rights reserved. 38 Copyright © 2014, Oracle and/or its affiliates. All rights reserved.