Webinar@Lunchtime

Werbung
Webinar@Lunchtime
Die wichtigsten Hadoop-Komponenten für Big Data mit SAS®
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Herzlich Willkommen bei Webinar@Lunchtime
Moderation
Training
Anne K. Bogner-Hamleh
Bastian Weiß
SAS Institute GmbH
Education Consultant
KYBEIDOS GmbH
Senior Big Data
Solution Architect
Xing-Profil:
http://www.xing.com/profile/AnneKatrin_BognerHamleh?key=0.0
Xing-Profil:
https://www.xing.com/profile/Bastian_Weiss
Hinweise zum Ablauf des Webinars:
• Teilnehmer sind automatisch “stumm” geschaltet
• Sie können Nachrichten an den Moderator senden und Fragen stellen
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Gliederung:
•
•
•
•
I. Hadoop
II. Hive
III. SAS und Hadoop
IV. Demo
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema I. Was ist Hadoop?
Fakten:
•
begonnen 2004 von Doug Cutting auf Basis von
Googles-MapReduce und –Filesystem
•
Entwickelt von Yahoo und Google
•
Seit 2008 ein Apache TopLevel-Projekt
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema I. Was ist Hadoop?
Kernkomponenten von Hadoop
•
1. HDFS
verteiltes Dateisystem
•
2. MapReduce
verteiltes Rechnen
•
3. YARN
verteiltes Ressourcenmanagement
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema I. Was ist Hadoop?
HDFS-Prinzip
1.
2.
3.
Aufteilung in HDFS-Blöcke
Speichern der Blöcke
auf den Datenknoten
Replikation der
HDFS-Blöcke
Block 1
Block 3
DN1
Block 2
Block 3
Block 1
Large
File
Block 1
Block 2
Block 2
DN2
Block 3
Block 3
DN5
Block 1
Block 2
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
DN4
DN3
Thema I. Was ist Hadoop?
Hadoop Architektur
•
•
Verteilte &
skalierbare Struktur
Parallele Lese- und
Schreibevorgänge
Namenode
NameNode
Datanode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS Lesevorgang
•
1. Client Request
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS Lesevorgang
•
•
1. Client Request
2. File/Block Lookup
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS READ
•
•
•
1. Client Request
2. File/Block Lookup
3. Receive Block
location
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS READ
•
•
•
•
1. Client Request
2. File/Block Lookup
3. Receive Block
location
4. Read Blocks
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS READ
•
•
•
•
•
1. Client Request
2. File/Block Lookup
3. Receive Block
location
4. Read Blocks
5. Assemble
File
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – Write
•
1. Client Request
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – Write
•
•
1. Client Request
2. receive write location
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – Write
•
•
•
1. Client Request
2. receive write location
3. split file to blocks
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – Write
•
•
•
•
1. Client Request
2. receive write location
3. split file to blocks
4. send blocks to DN
Client
Datanode
Namenode
Namenode
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS
•
•
•
•
•
1. Client Request
2. receive write location
3. split file to blocks
4. send blocks to DN
5. replicat blocks
Client
Datanode
Namenode
Name node
Datanode
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Secondary
Namenode
Datanode
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS
Vorteile:
1.
2.
3.
4.
Skalierbare Architektur
Ausfallsicheres Dateisystem
Extrem hohe Lese- und Schreibraten
Niedrige Hardwareanforderung
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema I. Was ist Hadoop?
Hadoop Architektur – MapReduce
Fakten:
Programmiermodel/ Algorithmus der 2004 von
Google entwickelt wurde
Ermöglicht einfache und strukturierte
Entwicklung von verteilten Kalkulationen
Besteht aus drei Phasen
1.
2.
3.
1.
2.
3.
MAP- Phase
Shuffel-Phase
Reduce-Phase
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema I. Was ist Hadoop?
MapReduce
Beispiel Buchstabenzählen
1. File
2. Split
3. Map
A,1
B,1
R,1
ABR
CCR
ACR
Text File
>300 MB
ABR
CCR
C,1
C,1
R,1
ACB
Blöcke
je 128 MB
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
A,1
C,1
B,1
3. Shuffle
& Sort
4. Reduce
A,1
A,1
B,1
B,1
C,1
C,1
C,1
R,1
R,1
A,2
B,2
C,3
R,2
Thema I. Was ist Hadoop?
Hadoop Architektur – HDFS+ MR
DN1
• Ein Mapper je HDFS Block
• Gemeinsames
Ressourcenmanagement
DN2
DN3
MapReduce
ABR
• Vereinfachte Entwicklung
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
CCR
ACB
Hadoop Ökosystem
Hbase
Ambari
Atlas
Ranger
…
..
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema II. Was ist Hive ?
Fakten:
•
•
•
SQL Engine von Facebook entwickelt
Seit 2008 Apache Top Level Projekt für Batchverarbeitung
und interaktive analytische Aufgaben
erfolgreiche Usecases (DWH, ETL, …)
mit teilweise > 300 Petabyte Daten
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema II. Was ist Hive ?
Über HIVE
•
•
Bestandteil jeder Hadoop-Distributionen
SQL Engine
create, drop, join, select, insert …
• HQL-Abfrage (SQL like) auf HDFS Daten
• Partitionierung, Clustering
•
•
•
Update und Delete nur mit Aktivierung der ACID-Features
Verschiedene Dateiformate (ORC, CSV, Parquet, Json….)
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema II. Was ist Hive ?
Ökosystem – Hive Architektur
Client
•
2 Masterkomponenten
Hive-Server
• Metastore
•
•
Namenode
HiveServer2
Metastore
Jede Client-Abfrage über HiveServer
Abgleich mit Metastore
• Ausführung mit SQL-Engine
•
HDFS
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
DN1
DN2
DN3
Thema II. Was ist Hive ?
Hive
Beispiele für das
erstellen eines HIVE
Schemas mit
unterschiedlichen
Dateiformaten und
optionen
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema III. SAS und Hadoop
Ökosystem – SAS & Hadoop
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema III. SAS und Hadoop
Ökosystem – SAS & Hadoop
Vorteile im Überblick
•
•
•
Verteiltes Dateisystem
Sehr performante Abfragen auf riesigen Datenmengen
Beliebig skalierbar
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema III. SAS und Hadoop
Ökosystem – SAS & Hadoop
Vorteile von SAS
•
•
•
•
Enterprise Analytic Plattform – von ETL bis Analytik
Enterprise Ready Lineage & Governance
Umfangreiche Statistik-Anwendungen und Bibliotheken
…
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema III. SAS und Hadoop
Ökosystem – SAS & Hadoop
Stärken kombinieren
•
•
Statistik, Modelle, Datamining,
Business Intelligence,
Lösungen, Visualisierung, …
Datenbereitstellung, Backup/Archivierung,
Transformation, Schemata
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema III. SAS und Hadoop
Ökosystem – SAS & Hadoop –
SAS Schnittstellen
•
Mit SAS 9.3 Version
•
•
SAS Access for ODBC
Mit SAS 9.4 Version
•
•
•
•
SAS Access for Hadoop (HIVE)
SAS Access for Impala
SAS Embedded Processes
SAS Data Loader
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Thema IV. Demo
Demo
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Webinar@Lunchtime
FRAGEN?
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Vielen Dank für Ihre Teilnahme!
Weitere Informationen und Kurse zu diesem Thema…
Die wichtigsten Hadoop-Komponenten für Big Data mit SAS: ein Überblick
13. – 14. Juni 2017, Heidelberg
04. – 05. September 2017, Heidelberg
06. – 07. November 2017, Heidelberg
Die wichtigsten Hadoop-Komponenten für Big Data mit SAS: Vertiefung und
Praxis
04. – 05. Juli 2017, Heidelberg
06. – 07. September 2017, Heidelberg
08. – 09. November 2017, Heidelberg
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Nächstes Webinar@Lunchtime:
22. Mai 2017
Visualisierung leicht gemacht:
Grafiken und Karten in SAS Visual Analytics
Bruno Müller
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Folien zum Download unter www.sas.de/lunchtime
WIE HAT IHNEN UNSER WEBINAR GEFALLEN?
sas.com
Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.
Herunterladen