Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr

Big Data Analytics: Herausforderungen
und Systemansätze
Prof. Dr. Erhard Rahm
http://dbs.uni-leipzig.de
Massives Wachstum an Daten
Gartner:
− pro Tag werden 2.5 Exabytes an Daten generiert
− 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt.
2
Datenproduzenten:
Soziale Netze, Smartphones, Sensoren …
30 billion RFID
12+ TBs
tags today
(1.3B in 2005)
camera
phones
world wide
100s of
millions
of GPS
enabled
data every day
? TBs of
of tweet data
every day
4.6
billion
devices sold
annually
25+ TBs
2+
billion
of
log data
every day
76 million smart meters
people on
the Web by
end 2011
in 2009…
200M by 2014
3
Big Data Challenges
Volume
Skalierbarkeit von Terabytes
nach Petabytes (1K TBs) bis
Zettabytes (1 Milliarde TBs)
Variety
variierende Komplexität:
strukturiert, teilstrukturiert,
Text / Bild / Video
Velocity:
Near-Realtime, Streaming
Veracity:
Vertrauenswürdigkeit
Value
Erzielen des (wirtschaftl.)
Nutzens durch Analysen
4
Potentiale für Big Data-Technologien
• Daten sind Produktionsfaktor ähnlich Betriebsmitteln und
"Humankapital "
• Essentiell für viele Branchen und Wissenschaftsbereiche
• Valide Grundlage für zahlreiche Entscheidungsprozesse
– Vorhersage/Bewertung/Kausalität von Ereignissen
• Kurzfristige Analysen von Realdaten im Geschäftsleben
• Beispiele
– Nutzungsanalyse auf Web-Sites
– Empfehlungsdienste (Live Recommendations)
– Analyse/Optimierung von Werbe-Massnahmen
5
Neuartige Anwendungen für Big Data
Analytics
6
Big Data Analysis Pipeline
Source: Agrawal et al: Big Data: Challenges and Opportunities, 2011
7
Gliederung
• Einführung Big Data
– Trends / Challenges / Applications
• Architekturen
– Data Warehouse Appliances / In-Memory DWH
– NoSQL /Cloud (Hadoop & Co)
– Kombinationen
• Forschungsarbeiten
– DeDoop Datenintegration
– BIIG: Graphbasierte BI
8
Architekturalternativen
• Data Warehouse Appliances
– Column Store, In-Memory-Optimierungen
– Parallele DB-Vearbeitung mit vielen Knoten/Cores,
Spezial-Hardware, z.B. FPGA (Netezza)
• Massiv skalierbare Cloud-Architekturen
– Nutzung von NoSQL Data Stores
– Frameworks zur automatischen Parallelisierung
datenintensiver Aufgaben (MapReduce / Hadoop)
• Kombinationen: DWH + Cloud/Hadoop
9
Analyse-Pipeline

Datenvorverarbeitung und Datenintegration
 Unterstützung von Stream-Daten und Cloud-Infrastrukturen (Hadoop)
10
SAP HANA: In-Memory-Datenbanktechnologie
Quelle: SAP
11
12
SAP HANA - Merkmale
• Dramatische Beschleunigung der DB-Verarbeitung
– Vermeidung langsamer Plattenzugriffe
– neue auf In-Memory-Verarbeitung zugeschnittene
Datenstrukturen und Algorithmen
– Vermeidung von Indexstrukturen, Cubes etc.
• Gleichzeitige Unterstützung von OLTP + OLAP
– Record Store und Column Store (Datenkompression)
– Hohe Datenaktualität
• Einschränkungen
– Entwicklung noch am Anfang
– Geschlossene Umgebung
– Hohe Kosten
13
Probleme relationaler Datenbanken
• Schema-getrieben (“Schema First”)
– weniger geeignet für semi-strukturierte (Web-) Daten
– zu starr für irreguläre Daten
• relativ hohe Kosten, v.a. für Parallele DBS (kein Open-Source
System)
• Skalierbarkeitsprobleme für Big Data (Web Scale)
– Milliarden von Webseiten
– Milliarden von Nutzern von Websites und sozialen Netzen
• ACID aufwändig / strenge Konsistenz nicht immer erforderlich
14
• Entwicklung seit ca. 2009
– Ursprünglicher Fokus: moderne “web-scale” Datenbanken
• Merkmale
–
–
–
–
–
–
–
nicht-relational
open-source
verteilt, horizontal (auf große Datenmengen) skalierbar
schema-frei, Datenreplikation
einfache API
eventually consistent / BASE (statt ACID)
fehlende Standardisierung
• Zunehmende Koexistenz mit SQL
– “NoSql" wird als “Not only Sql“ interpretiert
15
Grobeinordnung NoSQL-Systeme
16
Grouping
Grouping
Reduce Phase
Grouping
• Framework zur automatischen
Parallelisierung von Auswertungen
auf großen Datenmengen
– Entwicklung bei Google
– Apache Open-SourceImplementierung: Hadoop
Map Phase
Partitioning
MapReduce
• Nutzung v.a. zur Verarbeitung riesiger Mengen
teilstrukturierter Daten in einem verteilten Dateisystem
– Konstruktion Suchmaschinenindex
– Clusterung von News-Artikeln
– Spam-Erkennung …
17
Hadoop Ökosystem
18
Hadoop Ökosystem
• Zunehmende Unterstützung für SQL-Anbindung
– Cloudera Impala
– Apache Drill
– Scoop: JDBC-Konnektor für Bulk-Datentransfer
• Unterstützung für Stream-Daten (Sensordaten,
Twitter, Logs etc) : Flume
• Unterstützung für Graph-Daten: Giraph
19
Google: Trend zu massiv verteilten
Datenbanken
• 2003/04 Google Filesystem (GFS), Map-Reduce
– Basis für Apache HDFS, Hadoop
• 2006: Google BigTable
– Basis für HBase (2008), Facebook-Nutzung (2010+)
• 2012: Neues verteiltes SQL/ACID-fähiges DBS Spanner
– Ziel: Millionen Knoten mit über verschiedene Data-Center
verteilten Daten
– Basis für unternehmenskritische Anwendungen, v.a. OnlineWerbung (Google F1)
20
IBM Big Data Platform
Visualization
& Discovery
Applications &
Development
Systems
Management
Accelerators
Hadoop
System
Stream
Computing
Data
Warehouse
Contextual
Discovery
Information Integration & Governance
Cloud | Mobile | Security
Quelle: IBM
21
22
Big Data Architekturen: Fazit
• Konvergenz von DWH-Appliances, Streaming und
Hadoop-Technologien
• Optimierte DWH-Appliances für die meisten Unternehmen
ausreichend (< 100 Terabyte)
– In-Memory-Optimierung, Column Stores essentiell
• Scaleout auf Cloud-Plattformen / Hadoop
– Für sehr große Datenmengen
– Nutzung preiswerter Hardware/Software
– Besonders für semistrukturierte Daten (Web, soziale
Netzwerke) / ETL und Machine Learning
– Nutzung von SQL und höheren Schnittstellen als nur
MapReduce
23
Gliederung
• Einführung Big Data
– Trends / Challenges / Applications
• Architekturen
– Data Warehouse Appliances / In-Memory DWH
– NoSQL /Cloud (Hadoop & Co)
– Kombinationen
• Forschungsarbeiten
– DeDoop Datenintegration
– BIIG: Graphbasierte BI
24
Forschungsarbeiten
• Web Data Integration Lab (WDI-Lab)
• Cloud Data Management / Big Data
– Skalierbares Daten-Management / Last-Balancierung mit
Hadoop
– Machine Learning auf Hadoop
– DeDoop: Deduplication based on Hadoop
• Business Analytics mit NoSQL/Graph-Daten
• Zwei Startups in 2012
– Web Data Solutions GmbH, Data Virtuality GmbH
25
Integration von Webdaten,
z.B. Produktangebote
• Identifikation semantisch äquivalenter Objekte (Objekt-Matching)
• Fusion oder Datenvergleich / Analyse
Herausforderungen:
• Schlechte Datenqualität
• Heterogene
Repräsentationen
• Fehlerhafte Angaben
• Große Datenmengen
• Verarbeitung in Echtzeit
26
Dedoop: Efficient Deduplication with Hadoop
Parallele Ausführung von
Datenintegrations/Match-Workflows
mit Hadoop
• Browser-basiertes GUI
• Mächtige Funktionsbibliothek mit
– vielen Match-Techniken
– Lernbasierte Konfiguration
• Automatische Generieren und Starten von Map/ReduceJobs auf unterschiedlichen Clustern
• Automatische Lastbalancierung
• Monitoring der Ausführung
27
Dedoop Überblick
28
Browser-basierte Spezifikation
• Graphical HDFS file manager and File-Viewer
– Support common file operations
– Simple metadata operations to facilitates workflow definition
• Input section
– Select data sources, id attributes, final output directory
– Attributes to appear in match result
– Attribute mapping in case of two sources
• Blocking Section
– Standard Blocking, Sorted Neighborhood, Cartesian, Tokenset-Similarity
– Blocking key generation functions
• Matching section
– Similarity Functions
– Match classification (learning-based, threshold-based)
29
Graph-basierte Analysen
• Umfassende Auswertung von Beziehungen in Unternehmensdaten
– von relationalen DWH unzureichend abgedeckt
• Bsp.: welche Mitarbeiter sind in erfolgreichen Projektabschlüssen
wie beteiligt
Framework BIIIG:
Business Intelligence
with Integrated
Instance Graphs
30
BIIIG-Analysen
31
Danke für die Aufmerksamkeit!
32