Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de Massives Wachstum an Daten Gartner: − pro Tag werden 2.5 Exabytes an Daten generiert − 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt. 2 Datenproduzenten: Soziale Netze, Smartphones, Sensoren … 30 billion RFID 12+ TBs tags today (1.3B in 2005) camera phones world wide 100s of millions of GPS enabled data every day ? TBs of of tweet data every day 4.6 billion devices sold annually 25+ TBs 2+ billion of log data every day 76 million smart meters people on the Web by end 2011 in 2009… 200M by 2014 3 Big Data Challenges Volume Skalierbarkeit von Terabytes nach Petabytes (1K TBs) bis Zettabytes (1 Milliarde TBs) Variety variierende Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Velocity: Near-Realtime, Streaming Veracity: Vertrauenswürdigkeit Value Erzielen des (wirtschaftl.) Nutzens durch Analysen 4 Potentiale für Big Data-Technologien • Daten sind Produktionsfaktor ähnlich Betriebsmitteln und "Humankapital " • Essentiell für viele Branchen und Wissenschaftsbereiche • Valide Grundlage für zahlreiche Entscheidungsprozesse – Vorhersage/Bewertung/Kausalität von Ereignissen • Kurzfristige Analysen von Realdaten im Geschäftsleben • Beispiele – Nutzungsanalyse auf Web-Sites – Empfehlungsdienste (Live Recommendations) – Analyse/Optimierung von Werbe-Massnahmen 5 Neuartige Anwendungen für Big Data Analytics 6 Big Data Analysis Pipeline Source: Agrawal et al: Big Data: Challenges and Opportunities, 2011 7 Gliederung • Einführung Big Data – Trends / Challenges / Applications • Architekturen – Data Warehouse Appliances / In-Memory DWH – NoSQL /Cloud (Hadoop & Co) – Kombinationen • Forschungsarbeiten – DeDoop Datenintegration – BIIG: Graphbasierte BI 8 Architekturalternativen • Data Warehouse Appliances – Column Store, In-Memory-Optimierungen – Parallele DB-Vearbeitung mit vielen Knoten/Cores, Spezial-Hardware, z.B. FPGA (Netezza) • Massiv skalierbare Cloud-Architekturen – Nutzung von NoSQL Data Stores – Frameworks zur automatischen Parallelisierung datenintensiver Aufgaben (MapReduce / Hadoop) • Kombinationen: DWH + Cloud/Hadoop 9 Analyse-Pipeline Datenvorverarbeitung und Datenintegration Unterstützung von Stream-Daten und Cloud-Infrastrukturen (Hadoop) 10 SAP HANA: In-Memory-Datenbanktechnologie Quelle: SAP 11 12 SAP HANA - Merkmale • Dramatische Beschleunigung der DB-Verarbeitung – Vermeidung langsamer Plattenzugriffe – neue auf In-Memory-Verarbeitung zugeschnittene Datenstrukturen und Algorithmen – Vermeidung von Indexstrukturen, Cubes etc. • Gleichzeitige Unterstützung von OLTP + OLAP – Record Store und Column Store (Datenkompression) – Hohe Datenaktualität • Einschränkungen – Entwicklung noch am Anfang – Geschlossene Umgebung – Hohe Kosten 13 Probleme relationaler Datenbanken • Schema-getrieben (“Schema First”) – weniger geeignet für semi-strukturierte (Web-) Daten – zu starr für irreguläre Daten • relativ hohe Kosten, v.a. für Parallele DBS (kein Open-Source System) • Skalierbarkeitsprobleme für Big Data (Web Scale) – Milliarden von Webseiten – Milliarden von Nutzern von Websites und sozialen Netzen • ACID aufwändig / strenge Konsistenz nicht immer erforderlich 14 • Entwicklung seit ca. 2009 – Ursprünglicher Fokus: moderne “web-scale” Datenbanken • Merkmale – – – – – – – nicht-relational open-source verteilt, horizontal (auf große Datenmengen) skalierbar schema-frei, Datenreplikation einfache API eventually consistent / BASE (statt ACID) fehlende Standardisierung • Zunehmende Koexistenz mit SQL – “NoSql" wird als “Not only Sql“ interpretiert 15 Grobeinordnung NoSQL-Systeme 16 Grouping Grouping Reduce Phase Grouping • Framework zur automatischen Parallelisierung von Auswertungen auf großen Datenmengen – Entwicklung bei Google – Apache Open-SourceImplementierung: Hadoop Map Phase Partitioning MapReduce • Nutzung v.a. zur Verarbeitung riesiger Mengen teilstrukturierter Daten in einem verteilten Dateisystem – Konstruktion Suchmaschinenindex – Clusterung von News-Artikeln – Spam-Erkennung … 17 Hadoop Ökosystem 18 Hadoop Ökosystem • Zunehmende Unterstützung für SQL-Anbindung – Cloudera Impala – Apache Drill – Scoop: JDBC-Konnektor für Bulk-Datentransfer • Unterstützung für Stream-Daten (Sensordaten, Twitter, Logs etc) : Flume • Unterstützung für Graph-Daten: Giraph 19 Google: Trend zu massiv verteilten Datenbanken • 2003/04 Google Filesystem (GFS), Map-Reduce – Basis für Apache HDFS, Hadoop • 2006: Google BigTable – Basis für HBase (2008), Facebook-Nutzung (2010+) • 2012: Neues verteiltes SQL/ACID-fähiges DBS Spanner – Ziel: Millionen Knoten mit über verschiedene Data-Center verteilten Daten – Basis für unternehmenskritische Anwendungen, v.a. OnlineWerbung (Google F1) 20 IBM Big Data Platform Visualization & Discovery Applications & Development Systems Management Accelerators Hadoop System Stream Computing Data Warehouse Contextual Discovery Information Integration & Governance Cloud | Mobile | Security Quelle: IBM 21 22 Big Data Architekturen: Fazit • Konvergenz von DWH-Appliances, Streaming und Hadoop-Technologien • Optimierte DWH-Appliances für die meisten Unternehmen ausreichend (< 100 Terabyte) – In-Memory-Optimierung, Column Stores essentiell • Scaleout auf Cloud-Plattformen / Hadoop – Für sehr große Datenmengen – Nutzung preiswerter Hardware/Software – Besonders für semistrukturierte Daten (Web, soziale Netzwerke) / ETL und Machine Learning – Nutzung von SQL und höheren Schnittstellen als nur MapReduce 23 Gliederung • Einführung Big Data – Trends / Challenges / Applications • Architekturen – Data Warehouse Appliances / In-Memory DWH – NoSQL /Cloud (Hadoop & Co) – Kombinationen • Forschungsarbeiten – DeDoop Datenintegration – BIIG: Graphbasierte BI 24 Forschungsarbeiten • Web Data Integration Lab (WDI-Lab) • Cloud Data Management / Big Data – Skalierbares Daten-Management / Last-Balancierung mit Hadoop – Machine Learning auf Hadoop – DeDoop: Deduplication based on Hadoop • Business Analytics mit NoSQL/Graph-Daten • Zwei Startups in 2012 – Web Data Solutions GmbH, Data Virtuality GmbH 25 Integration von Webdaten, z.B. Produktangebote • Identifikation semantisch äquivalenter Objekte (Objekt-Matching) • Fusion oder Datenvergleich / Analyse Herausforderungen: • Schlechte Datenqualität • Heterogene Repräsentationen • Fehlerhafte Angaben • Große Datenmengen • Verarbeitung in Echtzeit 26 Dedoop: Efficient Deduplication with Hadoop Parallele Ausführung von Datenintegrations/Match-Workflows mit Hadoop • Browser-basiertes GUI • Mächtige Funktionsbibliothek mit – vielen Match-Techniken – Lernbasierte Konfiguration • Automatische Generieren und Starten von Map/ReduceJobs auf unterschiedlichen Clustern • Automatische Lastbalancierung • Monitoring der Ausführung 27 Dedoop Überblick 28 Browser-basierte Spezifikation • Graphical HDFS file manager and File-Viewer – Support common file operations – Simple metadata operations to facilitates workflow definition • Input section – Select data sources, id attributes, final output directory – Attributes to appear in match result – Attribute mapping in case of two sources • Blocking Section – Standard Blocking, Sorted Neighborhood, Cartesian, Tokenset-Similarity – Blocking key generation functions • Matching section – Similarity Functions – Match classification (learning-based, threshold-based) 29 Graph-basierte Analysen • Umfassende Auswertung von Beziehungen in Unternehmensdaten – von relationalen DWH unzureichend abgedeckt • Bsp.: welche Mitarbeiter sind in erfolgreichen Projektabschlüssen wie beteiligt Framework BIIIG: Business Intelligence with Integrated Instance Graphs 30 BIIIG-Analysen 31 Danke für die Aufmerksamkeit! 32