BIG DATA – Neue Ansätze für die Analyse poly-strukturierter Daten Klassische Technologien zur Integration, Verarbeitung und Speicherung entscheidungsunterstützender Daten stoßen vor dem Hintergrund aktueller Anforderungen häufig an ihre Grenzen. Unter dem Schlagwort BIG DATA sammeln sich nun neue Ansätze zur Analyse großer Datenmengen, die auch in unterschiedlichen Strukturen vorliegen können. Damit eröffnen sich neue Möglichkeiten für Unternehmen, aber die nutzenstiftende Verwertung der Daten aus unterschiedlichsten Quellen stellt das Informationsmanagement erneut vor architektonische und technologische Fragestellungen. Viele Unternehmen sind in den letzten Jahren an die Grenzen der Beherrschbarkeit ihrer analytischen Infrastrukturen gekommen. Die gestiegene strategische Bedeutung der Business Intelligence in Unternehmen bedeutet ein gleichzeitiges Wachstum der Faktoren Datenmengen, Anwenderzahl sowie Komplexität von Abfragen. Gleichzeitig bedeutet dies aber auch eine gestiegene Erwartungshaltung der Anwender hinsichtlich kurzfristiger Bereitstellung aktueller Daten und Abfrageperformance der Systeme. Als wenn das nicht genug Herausforderungen wären, sorgt ein anhaltend hoher Kostendruck für das permanente Hinterfragen der Investitionen in Data Warehouses und BI-Systeme. Diese anspruchsvolle Mischung an Anforderungen führte in den letzten Jahren in Unternehmen zu höherer Offenheit für innovative Technologien und Ergänzungs- und Ersatzinvestitionen in analytische Datenbanken, die für den Einsatzzweck Business Intelligence und Data Warehousing optimiert sind. Durch Einsatz von massiv parallelen Architekturen, spalten-basierter Indexierung, In-memory-Technologien oder auch der Lieferung als Appliance sorgen sie für eine bessere Unterstützung einiger oder aller aufgeführten Herausforderungen als traditionelle relationale Datenbanken, die nicht per se als performante Systeme für die Analytik optimiert sind. Beispiele für Big-Data-Datenarten und Anwendungsfälle • Weblogs und -statistiken für die zeitnahe Auswertung von OnlineWerbemaßnahmen, • RFID- & GPS-Daten zur Optimierung der Produktion und der Logistik, • Sensor-Daten in Gebäuden, Gegenständen oder der Umwelt zur Erfassung von Zuständen und Einflüssen, z.B. zur Optimierung von Wartungsmaßnahmen • Überwachung der Finanztransaktionsdaten für eine frühzeitige Betrugserkennung, • Energie-Verbrauchsdaten zur Optimierung der Verträge oder • Protokolldateien über Kommunikationsverbindungen aus der Telekommunikation für den Aufbau flexiblerer Billings-Systeme oder • Social-Media Daten für zielgerichtete Marketingkampagnen. Shop, aber auch Social Media Daten aus Facebook, Twitter oder zahlreichen Blogs. Hinzu kommen auch unstrukturierte Daten wie Call-Center oder Service-Notizen, Bilder auf Webseiten oder Video-Clips, die als Basis für Analysen herangezogen werden können. Diese semi- und unstrukturierten Daten sind mit den üblicherweise eingesetzten Technologien einer klassischen BI-Architektur bestehend aus Datenintegration, Datenspeicherung, Analytik und Visualisierung/Auswertung häufig nur wenig effizient nutzbar. Hauptproblem liegt neben der schieren Datenmenge, die in diesen Bereich recht schnell in die Petabyte hereinreichen kann, vor allem in den unterschiedlichen Strukturen der Daten, die in relationalen Datenbanken häufig nicht effizient abbildbar sind. An dieser Stelle bieten Big-Data-Technologien neue Möglichkeiten. Big Data bietet Methoden und Technologien für die Erfassung, Speicherung und Analyse poly-strukturierter Daten, genau dort, wo klassische Systeme heute an ihre Grenzen stoßen. Für Big Data werden neue Software-Lösungen eingesetzt, die verschiedene Anforderungen in vier Dimensionen erfüllen müssen: • Integration, Verarbeitung und Speicherung großer Mengen (Dimension des Volumens) • poly-strukturierter Daten (Dimension der Struktur), • zur schnellen und flexiblen Integration von Datenquellen und Ausführung von Analytik (Dimension Geschwindigkeit) für Neben allen genannten wird eine weitere Herausforderung aktuell unter dem Stichwort „Big Data“ auch noch einmal prominenter platziert: Interessantes Wissen liegt nicht nur in strukturierten Daten, auf die sich traditionelle Data Warehouses konzentrieren, sondern auch in vielen anderen Datenquellen, die semi- oder unstrukturierte Daten liefern. Während die Einbeziehung und Analyse dieser Daten in die Business Intelligence schon sehr lange diskutiert wird, zeigen sich jetzt erst konkrete Potentiale auch für eine größere Zahl an Unternehmen auf. Das allseits zu beobachtende exponentielle Wachstum des verarbeiteten und gespeicherten Datenvolumens wird insbesondere durch maschinell erzeugte Daten generiert. RFID-Funkchip-Erfassungen, Maschinendaten aus der Produktion, LogDaten der IT-Systeme, Sensor-Daten in Gebäuden oder der Umwelt, das World Wide Web mit Daten aus der eigenen Webpräsenz oder dem eigenen Web 20 CeBIT Guide Business Intelligence 2012 • komplexere Analysen und Visualisierung der Inhalte (Dimension der Analyse-Komplexität). Der Nutzen von Big Data liegt vor allem in der Analytik auf großen und neu zugänglichen Datenmengen und letztlich der Verbindung dieser Analysen mit der existierenden Welt der strukturierten Daten. Dies eröffnet weitreichende Potentiale und Chancen, insbesondere • neue und detailliertere Analysemöglichkeiten von Daten, die heute noch gar nicht oder nur teilweise genutzt werden können, © isi Medien, München • aber auch eine höhere Flexibilität des Gesamtsystems für neue Analyseanforderungen sowie Nutzung flexiblerer Liefermodelle für On-DemandAnalyse in Cloud-Lösungen. Insgesamt ergibt die Nutzung neuer Technologien, die für die Integration und Analyse poly-strukturierter Daten entwickelt wurde auch deutliche Kosteneinsparungsmöglichkeiten, die in der Optimierung der Lösungen für diese Aufgabenstellung und der teilweisen Verfügbarkeit als Open-Source-Lösungen liegt. Die wesentlichen Herausforderungen anderseits liegen in vielen Bereichen: • Das Aufstellen von Geschäftsfällen fällt derzeit noch schwer, die eine BigData-Initiative rechtfertigen. Qualität und Nutzen der Analyse-Ergebnisse sind teilweise schwer abseh- und quantifizierbar, auch aufgrund fehlender Erfahrungswerte am Markt. • Die Abgrenzung zwischen Big-Data- und traditionellen BI- und DataWarehouse-Szenarien ist fließend. Anwendungsfälle sind bezüglich Umsetzbarkeit mit der verfügbaren Infrastruktur und den Kosten zu prüfen. Big Data setzt nicht zwingend neue Technologien voraus. • Eine geeignete Big-Data-Strategie ist zu definieren, als eine Erweiterung einer BI-Strategie oder auch eine völlig neue Aufstellung von Unternehmen zur Nutzung des Produktionsfaktors Daten und seiner Bedeutung für die komparative Wettbewerbsposition. • Die Integration mit der bestehenden analytischen Infrastruktur stellt die technologische Herausforderung im Kombinationsbetrieb der Integration und Verarbeitung poly-strukturierter Daten mit der klassischen Analytik auf strukturierten Daten. Ein Austausch oder gegenseitiger Zugriff auf die Informationen zwischen den Systemen muss konzeptionell, architektonisch und technisch realisiert werden für fachlich sinnvolle Anwendungen. • Die Verfügbarkeit von geeigneten Big-Data-Entwicklern und -Analysten ist derzeit begrenzt. Gesucht werden © isi Medien, München neue Profile mit Programmier-KnowHow und mathematisch-analytischen Fähigkeiten. Im englischen Sprachraum etabliert sich hierfür gerade das Berufsprofil des „Data Scientist“. Hauptaufgaben auf der technischen Seite sind die Integration und Analyse der poly-strukturierten Daten u.a. durch die Anwendung von Map/Reduce-Programmierframeworks. Nicht zu unterschätzen ist auch die Visualisierung der „Massen“-Daten, die andere Techniken erfordert als Geschäftsgrafik-orientierten Darstellungsformen der klassischen BI-Welt. • Das Thema Datenschutz und Ethik ist insbesondere in Deutschland ein heißesThema. Die Abgrenzung zwischen dem „was man darf“ und „was man nicht darf“ ist unscharf und muss rechtlich geprüft werden. Dies führt zu einer Unsicherheit in der Anwendung von Big Data Anwendungen, gerade bei Auswertungen der personenbezogenen Daten aus sozialen Netzwerken. • Letztendlich die Auswahl passender Technologien für die Einbindung der neuen Datenquellen, derTransformationen und Integrationsregel, der Speicherung der Daten, dem Laden der Analyseergebnisse und der Analyse und Visualisierung ist eine Herausforderung ansich. Das Lösungsangebot am Markt ist groß und die Einsatzgebiete der unterschiedlichen Technologien nicht immer ganz ersichtlich. • Skalierbarkeit, Performance, RealTime-Bereitstellung und Wartbarkeit sind wie in klassischen BI-Szenarien auch bei Big Data eine Herausforderung. Fehlende Reife von Lösungsangeboten und knappes Know How am Markt verschärfen diese Themen. Das Big Data Ecosystem – Marktstrukturierung für Big Data Der Markt für Big Data Software ist so vielschichtig wie die zu lösenden Aufgabenstellungen. Analog zu BI-, DWHoder Datenintegrations-Systemen gibt es auch im Big-Data-Bereich eine Vielzahl an alten und neuen Angeboten, die ähnliche Aufgabenstellung zur klassischen BI adressieren. Wesentlicher Kern von Big Data ist der stark programmiergetriebene, BARC-Studie „Data Warehousing und Datenintegration“ Die BARC-Studie „Data Warehousing und Datenintegration“ liefert umfassende Informationen zu Anbietern, Software-Werkzeugen und aktuellen Themen des Datenmanagements. Führende Software-Lösungen werden auf Basis eines umfassenden Kriterienkataloges detailliert verglichen und bewertet. Die Studie umfasst Produktbeschreibungen, technische Datenblätter und Analysen zu den getesteten Werkzeugen. Weitere Informationen zur Studie finden Sie unter www.barc.de/dw daten-zentrische Kern auf Basis des MapReduce-Ansatzes, den Google zur Popularität verhalf. Der Ansatz ist simpel: Zerlege die Aufgabe in ihre kleinsten Teile, verteile diese Aufgaben zur massiv parallelen Verarbeitung auf sehr viele Rechner (map) und führe das Ergebnis wieder zusammen (reduce). Damit wird vor allem die Verarbeitung poly-strukturierter Daten ermöglicht, mit denen klassisch relationalen Datenbanken, aber auch DWH Appliances oder Massiv-Parallele relationale Datenbanken ihre Probleme haben. Herausforderung in der Speicherung und Verarbeitung dieser Daten öffnete den Markt für spezielle Dateisysteme wie bspw. das Hadoop-eigene Hadoop-File-Systeme (HDFS) aber vor allem zahlreiche NoSQL (Not only SQL) Datenbanken, die größtenteils für spezifische Einsatzzwecke optimiert verfügbar sind. Der Zugriff erfolgt bei den NoSQL-Datenbanken in der Regel noch über technische Schnittstellen und nicht über bekannte Abfragesprachen wie SQL. Die in NoSQL schwer umzusetzende Konsistenz von Daten, oder typische relationale Operationen wie die Zusammenführung von Tabellen (Join), Gruppierung oder auch Selektion zeigen die Notwendigkeit auf, die bekannte analytische SQL/MDXWelt mit der programm-orientierten Welt der NoSQL-Datenbanken zu verheiraten. Am Markt zeigt sich dies zum einem durch Fragen nach bewährten Integrationsstrategien als auch schon CeBIT Guide Business Intelligence 2012 21 Abbildung 1: Das Bild zeigt eine klassische analytische Architektur in direktem Vergleich zu einer Big-Data-Anwendung, größtenteils basierend auf Hadoop Komponenten (blauer Bereich). Die Anwendung besteht analog der BI-Referenzarchitekturen aus Komponenten für die Datenintegration, Datenspeicherung, Datenanalytik und Auswertung/Visualisierung. Der grundlegende Unterschied zur BI ist die daten-zentrische Ausrichtung auf Basis des MapReduce Programmierframeworks, welches eine hoch parallele Verarbeitung von Daten ohne zusätzliche Programmierung ermöglicht. Weitere Produkte ergänzen das Framework. durch erste Hybrid-Technologien wie bspw. AsterData von Teradata, EMC Greenplum oder das Open Source Projekt HIVE. Neben NoSQL und Hybriden sind auch Spezialisten am Markt verfügbar, die mit Big Data Lösungen oder Appliances aufwarten. Selten steht dahinter eine eigene Technologie, vielmehr handelt es sich dabei um Hadoop Distributionen von Anbietern wie Cloudera oder den großen Anbieter wie IBM und Microsoft, ergänzt um weitere zusätzliche – auch „eigene“ Werkzeuge und Technologien. Datenintegrationswerkzeuge. Big Data Funktionen umfassen hier Adapter in Hadoop-Dateisysteme wie HDFS oder HIVE sowie auch die Integration mit dem MapReduce Framework. Alternativen zur Einbindung von poly-strukturierten Datenquellen bieten Spezialisten wie Hadoop Chukwa, Flume oder Sqoop. die interaktive Datenexploration und Visualisierung für Fachanwender. Hier finden sich zahlreiche Spezialisten, die Lösungen für spezielle Anwendungsgebiete wie Analyse von Web Logs, E-Commerce Daten, Blogs & Twitter, Social Media Netzwerken usw. anbieten. Daneben existieren BI-Spezialisten wie Datameer, die sich vornehmlich auf einen Zugriff auf Big-Data-Infrastrukturen konzentrieren. Letztlich fangen auch die etablierten BI-Anbieter an, z.B. über Hive einen ergänzenden Zugriff auf neue Datenquellen zu schaffen. Die kleinen und wendigen Anbieter wie Tableau, Pentaho oder Jaspersoft sind die ersten im Markt. Die großen Anbieter werden höchst wahrscheinlich bald folgen – wie immer teils durch Eigenentwicklung und teils durch Zukauf. Auf der Ebene der Datenintegration steht die Geschwindigkeit und die Integration der heterogenen Datenquellen und -typen im Vordergrund. Zu beobachten ist die Integration von Big-Data-Funktionen in die etablierten Die Analytik poly-strukturierter Daten wird einerseits stark getrieben durch die Modellbildung auf Basis von Detaildaten. Hier findet die sehr umfangreiche Open-Source-Bibliothek R aber auch andere Data-Mining-Werkzeuge großen Anklang. Andererseits existieren für die Big-Data-Welt auch die klassischen BI-Anforderungen nach Dashboards und Berichten oder auch einfacheren Analyseumgebungen und 22 CeBIT Guide Business Intelligence 2012 © isi Medien, München Ausblick Big Data ist ein Marketingbegriff, der Methoden und Technologien subsumiert um Datenvolumen, Komplexität, Geschwindigkeit und neue Analytik zu beherrschen, die mit klassischen BI-Technologien nicht mehr sinnvoll umgesetzt werden können. Vor den steigenden Datenschätzen dieser Welt können Unternehmen ihre Augen nicht verschließen und so ist Big Data sicher ein Erfolgskriterium um sich von der Konkurrenz abheben zu können. Die technischen Möglichkeiten dafür sind durchaus erschwinglich. Open-Source-Lösungen und attraktive Angebote in der Cloud bspw. ermöglichen die Nutzung der notwendigen Werkzeuge und geben tiefen Einblick in die Daten oder bieten auch die Möglichkeit Big Data mit eigenen Daten zu testen. Um poly-strukturierte Daten sinnvoll zu verarbeiten und wertvolle Ergebnisse daraus abzuleiten müssen allerdings „Data Scientists“ mit gefunden oder ausgebildet werden, die schon heute eine knappe Ressource darstellen. Am Softwaremarkt zeigen sich viele Strömungen, um Lösungen für Big Data Aufgabenstellungen anbieten zu können. Im Open-Source-Bereich ist es vor allem das Apache Hadoop Framework mit vielen ergänzenden Werkzeugen, das im Fokus der Aufmerksamkeit steht. Wie bei anderen Open-Source-Projekten auch entwickeln sich langsam Distributoren, die Bündelung und Support übernehmen und Aufwand sowie Risiko für Unternehmen reduzieren. Inzwischen setzen alle großen Anbieter auf Hadoop, teils mit eigenen Distributionen teils mit Partnerschaften. Etablierte Anbieter stellen sich momentan für Big Data auf. Häufig wird eine Hadoop-Integration geboten, teilweise werden auch eigene Lösungen für Big Data geschaffen. Wie üblich im Softwaremarkt, wird es abhängig von der wachsenden Nachfrage zu einer Konsolidierungswelle kommen, in denen die großen Anbieter vielversprechende Spezialisten im eigenen Lösungsportfolio aufgehen lassen. Neben der Auswahl von Lösungen ist für Unternehmen ebenso wichtig, die Integration von geplanten Big-Data-Anwendungen in die bestehende analytische Infrastruktur zu konzipieren. Ergebnisse der Analysen von großen Mengen poly-strukturierter © isi Medien, München Daten sind häufig Kennzahlen oder andere strukturierte Information, die Unternehmen im Data Warehouse weiter verarbeiten möchten. Umgekehrt sind die qualitätsgesicherten Kennzahlen der Data-Warehouse-Welt interessante ergänzende Informationen, die bei der Analyse poly-strukturierter Daten hinzugezogen werden sollen. Werden beispielsweise riesige Mengen an WebLogdaten zur Steuerung von Angeboten auf der Webseite genutzt, so ist das Zusammenführen der Daten über das Verhalten auf der Webseite im Big Data Framework mit den Daten zum historischen Kaufverhalten des Kunden im Data Warehouse sehr interessant. Autoren Der Softwaremarkt ist noch in einer frühen Phase und auch potentielle Anwendungsgebiete in Unternehmen werden sondiert und pilotiert. Unternehmen sollten die Zeit nutzen und die neuen Möglichkeiten von Big Data evaluieren aber auch gegenwärtige Anforderungen nach hoher Abfrageperformance, guter Datenqualität und der Agilität der BI-Systems durch die Implementierung und das Leben einer Information Governance im Kern vorantreiben. Dies bietet letztendlich die solide Basis um neue Ideen in der Petaund Zetabyte-Welt umzusetzen. Dipl.-Kfm. Timm Grosser ist Senior Analyst und Berater am Business Application Research Center (BARC) im Bereich Business Intelligence. Seine Spezialgebiete sind entscheidungsunterstützende Informationssysteme mit besonderem Fokus auf Themen des Datenmanagement. Timm Grosser ist Hauptautor der Softwarevergleichsstudie Data Warehousing und Datenintegration und untersuchte bereits zahlreiche Lösungen und den SoftwareMarkt für Data Warehousing, Datenintegration sowie Datenqualität. Er ist häufiger Redner auf Tagungen und Seminaren sowie Autor von Fachartikeln und Marktstudien. Dr. Carsten Bange ist geschäftsführender Gesellschafter des Business Application Research Centers (BARC). Er ist seit mehr als zehn Jahren für nationale und internationale Unternehmen verschiedenster Branchen und Größen im Rahmen der Strategieund Architekturberatung, Werkzeugauswahl und Qualitätssicherung in Business-Intelligence- und Datenmanagement-Projekten tätig. Als neutraler Beobachter des Softwaremarktes ist er ein häufiger Redner bei Tagungen und Seminaren sowie Autor zahlreicher Fachpublikationen und Marktstudien. CeBIT Guide Business Intelligence 2012 23