www.ise-informatik.de Logical Data Warehouse SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky Senior Consultant Opitz Consulting Deutschland GmbH Enable eXtreme Performance. ISE Information Systems Engineering www.ise-informatik.de Gegründet 1991 Mitarbeiteranzahl: 60 Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg Schwerpunkte: Oracle Engineered Systems (Exadata / Exalogic / Exalytics) Data Warehousing & Business Intelligence Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit Managed Service für Datenbanken, BI und Middlewareapplikationen Oracle Partner Engineered Systems Award 2013 Copyright (C) ISE GmbH - All Rights Reserved 2 Enable eXtreme Performance. ISE Oracle Technology Center www.ise-informatik.de Erstes und einziges Exastack Technology Center in Deutschland in Nürnberg Coming soon Copyright (C) ISE GmbH - All Rights Reserved ODA X5 3 Vorstellung OPITZ CONSULTING Mission Märkte Wir entwickeln gemeinsam mit allen Branchen Lösungen, die dazu führen, dass sich diese Organisationen besser entwickeln als ihr Wettbewerb. Branchenübergreifend Über 600 Kunden Unsere Dienstleistung erfolgt partnerschaftlich und ist auf eine langjährige Zusammenarbeit angelegt. 29% Industrie / Versorger / Telekommunikation 29% Handel / Logistik / Dienstleistungen 42% Öffentliche Auftraggeber / Banken und Versicherungen / Vereine und Verbände Leistungsangebot Eckdaten Business IT Alignment Business Information Management Business Process Management Anwendungsentwicklung SOA und System-Integration IT-Infrastruktur-Management Gründung 1990 400 Mitarbeiter 9 Standorte © OPITZ CONSULTING Deutschland GmbH 2015 Seite 4 Wie OPITZ CONSULTING Big Data versteht Big Data = Alter Hut • IT-Durchdringung der Geschäftswelt steigt seit Beginn • Mooresche Gesetz gilt immer noch OPITZ CONSULTING1990 • Database-focused Company • große Datenmengen & komplexe Anforderungen OPITZ CONSULTINGt+25 Big Data = Chance • Individuallösungen, wenn Standard nicht ausreicht • Kontinuierliche Adaption neuer IT-Trends • Prozess- und Interessenstransparenz dank Maschine Data • Wettbewerbsvorteile dank Kombination (Mobile+ Big Data + Cloud + Analytics) 25 Wir helfen Kunden, die Möglichkeiten von Big Data zu verstehen Business Cases in ihrem Unternehmen zu erkennen und ganzheitlich unter Berücksichtigung bestehender Architekturen zu bewerten Projekte zielorientiert aufzusetzen und erfolgreich durchzuführen Business Cases anhand von Proof of Concepts zu verifizieren. Big Data ist bei OPITZ CONSULTING eines der TOP 3 Zukunftsthemen! © OPITZ CONSULTING Deutschland GmbH 2015 Seite 5 Enable eXtreme Performance. Bio www.ise-informatik.de Matthias Fuchs - Senior Consultant Infrastructure&Database 10 Jahre Oracle-Erfahrung OCP, Exadata Certified Focus on DWH, Audit, Security in Oracle DB and Oracle Exa Systems - - - - - Ingo Reisky Senior Consultant im Infrastructure Consulting bei OPITZ CONSULTING Mitglied OC-CC Big Data Dipl.-Wirtschaftsingenieur Univ. Karlsruhe (TH) OCP, LPIC-2, RHCT, … Fusion MW Spezialist: Oracle Weblogic Server, SOA Suite, Enterprise Manager Cloud Control Copyright (C) ISE GmbH - All Rights Reserved 6 Enable eXtreme Performance. Agenda www.ise-informatik.de LDW - Logical Data Warehouse Big Data SQL Infrastructure Sqoop - der Anfang Fallbeispiel aus Kundenprojekt Copyright (C) ISE GmbH - All Rights Reserved 7 Enable eXtreme Performance. www.ise-informatik.de LDW – Logical Data Warehouse Copyright (C) ISE GmbH - All Rights Reserved 8 Logical Data Warehouse Enable eXtreme Performance. www.ise-informatik.de Gartner Hype Cycle for Information Infrastructure, 2012, “the Logical Data Warehouse (LDW) is a new data management architecture for analytics which combines the strengths of traditional repository warehouses with alternative data management and access strategy. The LDW will form a new best practices by the end of 2015.” Copyright (C) ISE GmbH - All Rights Reserved 9 Gartner: Logical Data Warehouse Enable eXtreme Performance. www.ise-informatik.de Repository Management Verschiedene Typen u.a. Metadaten Konsolidierung Data Virtualization Virtuelle Daten Schicht Distributed Processes Aufruf externer Prozesse z.B. Bilder oder Content Analyse, aber auch MapReduce Cloud Auditing statistics and performance Evaluation Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten etc. Überwachung und ggf. Änderung der Ausführung Taxonomy - Ontology resolution a taxonomy “tree” in an ontological “forest” Metadata Management Copyright (C) ISE GmbH - All Rights Reserved 10 Gartner: Logical Data Warehouse Enable eXtreme Performance. www.ise-informatik.de Repository Management Verschiedene Typen u.a. Metadaten Konsolidierung Data Virtualization Virtuelle Daten Schicht ‚Data-to-insight cycle ' schneller Distributed Processes Aufruf externer Prozesse z.B. Bilder oder Contentgünstiges Analyse, aberFramework auch MapReduce um neue Cloud Inhalte einzubeziehen Auditing statistics and performance Evaluation Statistik über Performance End User, ApplikationenHöhere oder Verbindungen Flexibilität SLA Management Metadataset über erwartete Ausführungenzeiten etc. Überwachung und ggf. Änderung der Ausführung Taxonomy - Ontology resolution a taxonomy “tree” in an ontological “forest” Metadata Management Copyright (C) ISE GmbH - All Rights Reserved 11 Gartner: Übersicht Enable eXtreme Performance. www.ise-informatik.de Aus Gartner Newsletter Logical Data Warehousing for Big Data Copyright (C) ISE GmbH - All Rights Reserved 12 Enable eXtreme Performance. www.ise-informatik.de Big Data SQL Infrastructure Copyright (C) ISE GmbH - All Rights Reserved 13 Logische Implementation Enable eXtreme Performance. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 14 First LDW Implementationen Enable eXtreme Performance. www.ise-informatik.de Virtual. . Hadoop SLA Management Audit Management Copyright (C) ISE GmbH - All Rights Reserved 15 Daten aus heterogenen Quellen Enable eXtreme Performance. www.ise-informatik.de Innovation: Oracle Big Data SQL Erweitert Oracle SQL für Oracle DB, NoSQL und Hadoop! Copyright (C) ISE GmbH - All Rights Reserved 16 Enable eXtreme Performance. Big Data Sql - Übersicht www.ise-informatik.de Oracle Big Data SQL Cloudera Hadoop NOSQL R Advanced Analytics Exadata Connectors ODI Advanced Analytics Advanced Security Or BigData Lite VM Copyright (C) ISE GmbH - All Rights Reserved 17 Enable eXtreme Performance. Big Data Systemübersicht www.ise-informatik.de Processing Layer Big Data SQL Resource Management YARN + MapReduce Storage Layer Filesystem (HDFS) Copyright (C) ISE GmbH - All Rights Reserved 18 Enable eXtreme Performance. Big Data und DB im LDW www.ise-informatik.de Repository Management Oracle Big Data Appliance Data Virtualization Distributed Processes Auditing statistics and performance SLA Management ODI, BPM, SOA Taxonomy - Ontology resolution Enterprise Metadata Management Copyright (C) ISE GmbH - All Rights Reserved 19 Enable eXtreme Performance. www.ise-informatik.de Daten in Hadoop laden Copyright (C) ISE GmbH - All Rights Reserved 21 Enable eXtreme Performance. Sqoop www.ise-informatik.de Sqoop = SQL- to - Hadoop Paralleles kopieren von JDBC <-> HDFS MapReduce jobs zum Daten laden/schreiben HDFS DB Map Reduce Copyright (C) ISE GmbH - All Rights Reserved 22 Enable eXtreme Performance. Sqoop mit Oracle www.ise-informatik.de OraOOP Guy Harrison team Quest (Dell) Ab version 1.4.5 (CDH 5.1) Oracle direct path (non-buffered) IO for all reads Auf mappers werden Anzahl Blöcke verteilt Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten HDFS HADOOP MAPPER ORACLE SESSION HADOOP MAPPER ORACLE SESSION Copyright (C) ISE GmbH - All Rights Reserved ORACLE TABLE 23 Enable eXtreme Performance. Sqoop 1 vs. Sqoop 2 www.ise-informatik.de Sqoop 1 Sqoop 2 Kerberos Security, RDBMS connectors, transfer to hive Jdbc Connection Client startet Map jobs Service based, DB Treiber auf dem Server MAP only MAPReduce Client mit connection Details Vorkonfigurierte datasources Durch quest Oracle direct Treiber implementiert Oracle direct connector geplant 1.99.7 (aktuell1.99.5) Copyright (C) ISE GmbH - All Rights Reserved 24 Enable eXtreme Performance. Ausblick: Sqoop 2 Roadmap www.ise-informatik.de Auszug aus Roadmap Sqoop 2, Version 1.99.7: https://cwiki.apache.org/confluence/display/SQOOP/Sqoop+2+Roadmap “In this release, let’s focus on developing new connectors and execution engines. HBase connector Hive connector HCatalog connector (Or is this the same as Hive connector?) MySQL fast connector PostgreSQL fast connector Oracle fast connector Netezza connector Teradata connector (?) Spark execution engine” Copyright (C) ISE GmbH - All Rights Reserved 25 Enable eXtreme Performance. Big Data Connector www.ise-informatik.de Oracle Data Integrator Sqoop loads beide Richtungen Integration Knowledge Modules Oracle SQL Connector External Table Hive oder HDFS to Oracle Oracle Loader for Hadoop Load data to Oracle Prepare data and load to Oracle https://docs.oracle.com/cd/E57371_01/doc.41/e57352/start.htm#BDCUG261 Copyright (C) ISE GmbH - All Rights Reserved 26 Oracle SQLConnector Enable eXtreme Performance. www.ise-informatik.de http://www.oracle.com/us/products/database/big-data-connectors/certifications/index.html Copyright (C) ISE GmbH - All Rights Reserved 27 Enable eXtreme Performance. Real Time www.ise-informatik.de Oracle Change Data Capture Supported in 11.2 – but not recommended by Oracle Desupported in 12.1 Oracle Golden Gate 1. RDBMS to HIVE 2. RDBMS to Flume 3. RDBMS to HDFS Andere Hersteller: (Dell) Quest SharePlex – Auslesen redologs (VMWare) Continuent Tungsten – benutzt CDC im Hintergrund Libelle Copyright (C) ISE GmbH - All Rights Reserved 28 Enable eXtreme Performance. www.ise-informatik.de Noch mehr SQL auf Hadoop Copyright (C) ISE GmbH - All Rights Reserved 29 Enable eXtreme Performance. R und SQL www.ise-informatik.de Zahlreiche Möglichkeiten, mit „R“ strukturierte Daten abzufragen Verbindung mit R gegen Oracle DB Package ROracle (mit Oracle Client/Instant Client) http://www.oracle.com/technetwork/database/databasetechnologies/r/roracle/overview/index.html Verbindung mit R gegen Apache Hadoop oder Hive Packages in RHadoop (R gegen HDFS, HBase, …): https://github.com/RevolutionAnalytics/RHadoop/wiki RHIPE: Integrierte R- und Hadoop-Umgebung Package RHive: HiveQL (HQL, ähnlich SQL) gegen Hive R in der Oracle DB oder In Hive: Advanced Analytics Option (AAO) http://www.oracle.com/technetwork/database/options/advancedanalytics/overview/index.html Copyright (C) ISE GmbH - All Rights Reserved 30 Enable eXtreme Performance. Spark SQL www.ise-informatik.de Apache Spark ist eine alternative Execution Engine für Hadoop (neben MapReduce und Tez) oder Stand-alone: schnell! Spark SQL: Modul für den Zugriff auf strukturierte Daten Abfrage aus Spark als “Resilient Distributed Datasets” (RDD): SchemaRDDs als einheitliches Interface, mit integrierten APIs für Python, Scala und Java Auch für die Abfrage aus Hive-Tabellen, Parquet- und JSON-Dateien Enthält Server-Modus für JDBC- und ODBC-Verbindungen Unterstützt Ausfalltoleranz während laufender Abfragen nach dem RDD-Modell und skalliert auch für große Jobs: Eignung für interaktive und langlaufende Abfragen (historische Daten) Mehr unter: https://spark.apache.org/sql/ Copyright (C) ISE GmbH - All Rights Reserved 31 Enable eXtreme Performance. www.ise-informatik.de Fallbeispiel aus Kundenprojekt Copyright (C) ISE GmbH - All Rights Reserved 32 Enable eXtreme Performance. Analyse von Infrastrukturdaten www.ise-informatik.de Ziel Daten von Servicecalls (OSB) auswerten Daten Historisieren Feststellen von Anomalien Mappen von Strukturierten und Unstrukturierten Daten Tabellen/View und Datei Import Auswertung mit ausgewählten Werkzeugen • • Analytic output R Elasticsearch YARN/MR Weblogs Flume SQOOP HDFS Copyright (C) ISE GmbH - All Rights Reserved CC RDBMS 33 Enable eXtreme Performance. Vorbereitung www.ise-informatik.de Wahl der Hadoop Distribution Cloudera – Oracle supported Ohne -> sehr aufwendig Filedaten Flume Weblogic und Apache Logs Gut dokumentiert im Netz Ggf. Realtime Auswertung mit Elasticsearch or Solr Hive CDH 5.1 OCRFile Format Copyright (C) ISE GmbH - All Rights Reserved 34 Enable eXtreme Performance. Hive ORCFile www.ise-informatik.de Optimized Row Columnar File Format light-weight indexes bereits im Fileformat block-mode compression auf basis des Datentyps Größenvergleich über verschiedene Typen 585 • Encoded Text • CSV File 505 • RCFile • Record Columnar File 221 • Parquet • Columnar Storage Format, impala 131 • ORCFile • Hive TPC-DS Scale 500 Dataset GB, Hortonworks Copyright (C) ISE GmbH - All Rights Reserved 35 Enable eXtreme Performance. Ablauf Datenintegration www.ise-informatik.de Teil 1 Datenladen DB HDFS HIVE Oracle Big Data SQL Teil 2 Create Big Data SQL Layer Copyright (C) ISE GmbH - All Rights Reserved 36 Enable eXtreme Performance. Prozess Teil 1 www.ise-informatik.de • • DB • • • • • • Start sqoop job to HDFS Create external table on HDFS Files insert as select in hive ocr data table HDFS HIVE Import parallel 1, da view daten Kein primary key, keine parallelen MapReduce Prozesse Direct read notwendig, da sonst tmp Tablespace zu klein Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung ODI statt oozie Copyright (C) ISE GmbH - All Rights Reserved 37 Prozess Teil 2 Enable eXtreme Performance. www.ise-informatik.de Suche Tabelle in Hive aus DB select table_name, input_format, Location from ALL_HIVE_tables where table_name like '%oem%'; Copyright (C) ISE GmbH - All Rights Reserved 38 Enable eXtreme Performance. Prozess Teil 2 www.ise-informatik.de Create Table in DB (nur in Test VM) DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen DDL ausführen DDL Erzeugen dbms_hadoop.create_extddl_for_hive( CLUSTER_ID=>'bigdatalite', DB_NAME=>'default', HIVE_TABLE_NAME=>'oem_data', HIVE_PARTITION=>FALSE, TABLE_NAME=>'oem_data', PERFORM_DDL=>FALSE, TEXT_OF_DDL=>DDLout ); DDL Ausführen CREATE TABLE OEM_DATA ( target_name VARCHAR2(4000), target_guid ….. key_value6 VARCHAR2(4000), collection_timestamp VARCHAR2(4000)) ORGANIZATION EXTERNAL (TYPE ORACLE_HIVE DEFAULT DIRECTORY DEFAULT_DIR ACCESS PARAMETERS ( com.oracle.bigdata.cluster=bigdatalite com.oracle.bigdata.tablename=default.oem_ data) ); Copyright (C) ISE GmbH - All Rights Reserved 39 Ausführungsplan Enable eXtreme Performance. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 40 Enable eXtreme Performance. Ergebnisse: Laden der Daten www.ise-informatik.de Daten für einen Tag ~ 239.634.928 Zeilen/12 Spalten TXT Files Teil 1 ~100 G unkomprimiert Ladezeit ca. 1h aus CC DB OCR Files in hive ~ 27 M komprimiert ~ Ladezeit ca. 30 Minuten Type Größe Select Where count Oem_data BigDataSQL 2,8 MB 2,1 Mio 11s Oem_data local kopiert Oracle 558 MB 0,5s 2,1 Mio 0,5s Oem_data Hive 57s 50s Copyright (C) ISE GmbH - All Rights Reserved 8s Teil 2 41 Enable eXtreme Performance. Lastverteilung Big Data SQL www.ise-informatik.de Only data retrieval (TABLE ACCESS FULL und Filter ) werden offloaded! Datenbearbeitung im DB Layer GROUP BY, ORDER BY, JOIN, PL/SQL etc BigDataSQL 2.0 (Aggregation in Hadoop?) Alternativ Connect über ODBC Tool Beschreibung Sqoop Oracle SQL Connector für HDFS Text Dateien HDFS oder DataPump HDFS Big Data SQL 12c Exadata&BDA ODBC Decompress CPU Filtering CPU Datatype Conversion Hadoop Oracle Oracle Oracle Oracle Hadoop Hadoop Hadoop Hadoop Hadoop Oracle Copyright (C) ISE GmbH - All Rights Reserved 42 Enable eXtreme Performance. Zusammenfassung www.ise-informatik.de Vorher: Exadata €€€ DB/EMC €€€ Nacher: Hadoop € Exadata € Integration Layer DB/EMC € Copyright (C) ISE GmbH - All Rights Reserved 43 Enable eXtreme Performance. www.ise-informatik.de Q& A Copyright (C) ISE GmbH - All Rights Reserved 44