Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS® Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Herzlich Willkommen bei Webinar@Lunchtime Moderation Training Anne K. Bogner-Hamleh Bastian Weiß SAS Institute GmbH Education Consultant KYBEIDOS GmbH Senior Big Data Solution Architect Xing-Profil: http://www.xing.com/profile/AnneKatrin_BognerHamleh?key=0.0 Xing-Profil: https://www.xing.com/profile/Bastian_Weiss Hinweise zum Ablauf des Webinars: • Teilnehmer sind automatisch “stumm” geschaltet • Sie können Nachrichten an den Moderator senden und Fragen stellen Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Gliederung: • • • • I. Hadoop II. Hive III. SAS und Hadoop IV. Demo Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema I. Was ist Hadoop? Fakten: • begonnen 2004 von Doug Cutting auf Basis von Googles-MapReduce und –Filesystem • Entwickelt von Yahoo und Google • Seit 2008 ein Apache TopLevel-Projekt Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema I. Was ist Hadoop? Kernkomponenten von Hadoop • 1. HDFS verteiltes Dateisystem • 2. MapReduce verteiltes Rechnen • 3. YARN verteiltes Ressourcenmanagement Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema I. Was ist Hadoop? HDFS-Prinzip 1. 2. 3. Aufteilung in HDFS-Blöcke Speichern der Blöcke auf den Datenknoten Replikation der HDFS-Blöcke Block 1 Block 3 DN1 Block 2 Block 3 Block 1 Large File Block 1 Block 2 Block 2 DN2 Block 3 Block 3 DN5 Block 1 Block 2 Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. DN4 DN3 Thema I. Was ist Hadoop? Hadoop Architektur • • Verteilte & skalierbare Struktur Parallele Lese- und Schreibevorgänge Namenode NameNode Datanode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS Lesevorgang • 1. Client Request Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS Lesevorgang • • 1. Client Request 2. File/Block Lookup Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS READ • • • 1. Client Request 2. File/Block Lookup 3. Receive Block location Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS READ • • • • 1. Client Request 2. File/Block Lookup 3. Receive Block location 4. Read Blocks Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS READ • • • • • 1. Client Request 2. File/Block Lookup 3. Receive Block location 4. Read Blocks 5. Assemble File Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – Write • 1. Client Request Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – Write • • 1. Client Request 2. receive write location Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – Write • • • 1. Client Request 2. receive write location 3. split file to blocks Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – Write • • • • 1. Client Request 2. receive write location 3. split file to blocks 4. send blocks to DN Client Datanode Namenode Namenode Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS • • • • • 1. Client Request 2. receive write location 3. split file to blocks 4. send blocks to DN 5. replicat blocks Client Datanode Namenode Name node Datanode Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Secondary Namenode Datanode Thema I. Was ist Hadoop? Hadoop Architektur – HDFS Vorteile: 1. 2. 3. 4. Skalierbare Architektur Ausfallsicheres Dateisystem Extrem hohe Lese- und Schreibraten Niedrige Hardwareanforderung Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema I. Was ist Hadoop? Hadoop Architektur – MapReduce Fakten: Programmiermodel/ Algorithmus der 2004 von Google entwickelt wurde Ermöglicht einfache und strukturierte Entwicklung von verteilten Kalkulationen Besteht aus drei Phasen 1. 2. 3. 1. 2. 3. MAP- Phase Shuffel-Phase Reduce-Phase Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema I. Was ist Hadoop? MapReduce Beispiel Buchstabenzählen 1. File 2. Split 3. Map A,1 B,1 R,1 ABR CCR ACR Text File >300 MB ABR CCR C,1 C,1 R,1 ACB Blöcke je 128 MB Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. A,1 C,1 B,1 3. Shuffle & Sort 4. Reduce A,1 A,1 B,1 B,1 C,1 C,1 C,1 R,1 R,1 A,2 B,2 C,3 R,2 Thema I. Was ist Hadoop? Hadoop Architektur – HDFS+ MR DN1 • Ein Mapper je HDFS Block • Gemeinsames Ressourcenmanagement DN2 DN3 MapReduce ABR • Vereinfachte Entwicklung Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. CCR ACB Hadoop Ökosystem Hbase Ambari Atlas Ranger … .. Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema II. Was ist Hive ? Fakten: • • • SQL Engine von Facebook entwickelt Seit 2008 Apache Top Level Projekt für Batchverarbeitung und interaktive analytische Aufgaben erfolgreiche Usecases (DWH, ETL, …) mit teilweise > 300 Petabyte Daten Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema II. Was ist Hive ? Über HIVE • • Bestandteil jeder Hadoop-Distributionen SQL Engine create, drop, join, select, insert … • HQL-Abfrage (SQL like) auf HDFS Daten • Partitionierung, Clustering • • • Update und Delete nur mit Aktivierung der ACID-Features Verschiedene Dateiformate (ORC, CSV, Parquet, Json….) Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema II. Was ist Hive ? Ökosystem – Hive Architektur Client • 2 Masterkomponenten Hive-Server • Metastore • • Namenode HiveServer2 Metastore Jede Client-Abfrage über HiveServer Abgleich mit Metastore • Ausführung mit SQL-Engine • HDFS Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. DN1 DN2 DN3 Thema II. Was ist Hive ? Hive Beispiele für das erstellen eines HIVE Schemas mit unterschiedlichen Dateiformaten und optionen Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema III. SAS und Hadoop Ökosystem – SAS & Hadoop Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema III. SAS und Hadoop Ökosystem – SAS & Hadoop Vorteile im Überblick • • • Verteiltes Dateisystem Sehr performante Abfragen auf riesigen Datenmengen Beliebig skalierbar Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema III. SAS und Hadoop Ökosystem – SAS & Hadoop Vorteile von SAS • • • • Enterprise Analytic Plattform – von ETL bis Analytik Enterprise Ready Lineage & Governance Umfangreiche Statistik-Anwendungen und Bibliotheken … Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema III. SAS und Hadoop Ökosystem – SAS & Hadoop Stärken kombinieren • • Statistik, Modelle, Datamining, Business Intelligence, Lösungen, Visualisierung, … Datenbereitstellung, Backup/Archivierung, Transformation, Schemata Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema III. SAS und Hadoop Ökosystem – SAS & Hadoop – SAS Schnittstellen • Mit SAS 9.3 Version • • SAS Access for ODBC Mit SAS 9.4 Version • • • • SAS Access for Hadoop (HIVE) SAS Access for Impala SAS Embedded Processes SAS Data Loader Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Thema IV. Demo Demo Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Webinar@Lunchtime FRAGEN? Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Vielen Dank für Ihre Teilnahme! Weitere Informationen und Kurse zu diesem Thema… Die wichtigsten Hadoop-Komponenten für Big Data mit SAS: ein Überblick 13. – 14. Juni 2017, Heidelberg 04. – 05. September 2017, Heidelberg 06. – 07. November 2017, Heidelberg Die wichtigsten Hadoop-Komponenten für Big Data mit SAS: Vertiefung und Praxis 04. – 05. Juli 2017, Heidelberg 06. – 07. September 2017, Heidelberg 08. – 09. November 2017, Heidelberg Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Nächstes Webinar@Lunchtime: 22. Mai 2017 Visualisierung leicht gemacht: Grafiken und Karten in SAS Visual Analytics Bruno Müller Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d. Folien zum Download unter www.sas.de/lunchtime WIE HAT IHNEN UNSER WEBINAR GEFALLEN? sas.com Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.