BIG DATA – Neue Ansätze für die Analyse poly

Werbung
BIG DATA – Neue Ansätze für die Analyse
poly-strukturierter Daten
Klassische Technologien zur Integration, Verarbeitung und Speicherung
entscheidungsunterstützender Daten
stoßen vor dem Hintergrund aktueller
Anforderungen häufig an ihre Grenzen.
Unter dem Schlagwort BIG DATA sammeln sich nun neue Ansätze zur Analyse großer Datenmengen, die auch in
unterschiedlichen Strukturen vorliegen können. Damit eröffnen sich neue
Möglichkeiten für Unternehmen, aber
die nutzenstiftende Verwertung der
Daten aus unterschiedlichsten Quellen
stellt das Informationsmanagement
erneut vor architektonische und technologische Fragestellungen.
Viele Unternehmen sind in den letzten
Jahren an die Grenzen der Beherrschbarkeit ihrer analytischen Infrastrukturen gekommen. Die gestiegene
strategische Bedeutung der Business
Intelligence in Unternehmen bedeutet ein gleichzeitiges Wachstum der
Faktoren Datenmengen, Anwenderzahl sowie Komplexität von Abfragen.
Gleichzeitig bedeutet dies aber auch
eine gestiegene Erwartungshaltung
der Anwender hinsichtlich kurzfristiger Bereitstellung aktueller Daten und
Abfrageperformance der Systeme.
Als wenn das nicht genug Herausforderungen wären, sorgt ein anhaltend
hoher Kostendruck für das permanente
Hinterfragen der Investitionen in Data
Warehouses und BI-Systeme. Diese
anspruchsvolle Mischung an Anforderungen führte in den letzten Jahren
in Unternehmen zu höherer Offenheit
für innovative Technologien und Ergänzungs- und Ersatzinvestitionen in
analytische Datenbanken, die für den
Einsatzzweck Business Intelligence
und Data Warehousing optimiert sind.
Durch Einsatz von massiv parallelen
Architekturen, spalten-basierter Indexierung, In-memory-Technologien
oder auch der Lieferung als Appliance
sorgen sie für eine bessere Unterstützung einiger oder aller aufgeführten
Herausforderungen als traditionelle
relationale Datenbanken, die nicht per
se als performante Systeme für die
Analytik optimiert sind.
Beispiele für Big-Data-Datenarten
und Anwendungsfälle
• Weblogs und -statistiken für die
zeitnahe Auswertung von OnlineWerbemaßnahmen,
• RFID- & GPS-Daten zur Optimierung der Produktion und der Logistik,
• Sensor-Daten in Gebäuden, Gegenständen oder der Umwelt zur
Erfassung von Zuständen und Einflüssen, z.B. zur Optimierung von
Wartungsmaßnahmen
• Überwachung der Finanztransaktionsdaten für eine frühzeitige Betrugserkennung,
• Energie-Verbrauchsdaten zur Optimierung der Verträge oder
• Protokolldateien über Kommunikationsverbindungen aus der Telekommunikation für den Aufbau
flexiblerer Billings-Systeme oder
• Social-Media Daten für zielgerichtete Marketingkampagnen.
Shop, aber auch Social Media Daten
aus Facebook, Twitter oder zahlreichen
Blogs. Hinzu kommen auch unstrukturierte Daten wie Call-Center oder Service-Notizen, Bilder auf Webseiten oder
Video-Clips, die als Basis für Analysen
herangezogen werden können. Diese
semi- und unstrukturierten Daten sind
mit den üblicherweise eingesetzten
Technologien einer klassischen BI-Architektur bestehend aus Datenintegration, Datenspeicherung, Analytik und
Visualisierung/Auswertung häufig nur
wenig effizient nutzbar. Hauptproblem
liegt neben der schieren Datenmenge,
die in diesen Bereich recht schnell in die
Petabyte hereinreichen kann, vor allem
in den unterschiedlichen Strukturen der
Daten, die in relationalen Datenbanken
häufig nicht effizient abbildbar sind.
An dieser Stelle bieten Big-Data-Technologien neue Möglichkeiten. Big Data
bietet Methoden und Technologien für
die Erfassung, Speicherung und Analyse poly-strukturierter Daten, genau
dort, wo klassische Systeme heute an
ihre Grenzen stoßen. Für Big Data werden neue Software-Lösungen eingesetzt, die verschiedene Anforderungen
in vier Dimensionen erfüllen müssen:
• Integration, Verarbeitung und Speicherung großer Mengen (Dimension
des Volumens)
• poly-strukturierter Daten (Dimension
der Struktur),
• zur schnellen und flexiblen Integration von Datenquellen und Ausführung
von Analytik (Dimension Geschwindigkeit) für
Neben allen genannten wird eine weitere Herausforderung aktuell unter dem
Stichwort „Big Data“ auch noch einmal
prominenter platziert: Interessantes
Wissen liegt nicht nur in strukturierten
Daten, auf die sich traditionelle Data
Warehouses konzentrieren, sondern
auch in vielen anderen Datenquellen,
die semi- oder unstrukturierte Daten
liefern. Während die Einbeziehung und
Analyse dieser Daten in die Business
Intelligence schon sehr lange diskutiert
wird, zeigen sich jetzt erst konkrete Potentiale auch für eine größere Zahl an
Unternehmen auf. Das allseits zu beobachtende exponentielle Wachstum
des verarbeiteten und gespeicherten
Datenvolumens wird insbesondere
durch maschinell erzeugte Daten generiert. RFID-Funkchip-Erfassungen, Maschinendaten aus der Produktion, LogDaten der IT-Systeme, Sensor-Daten in
Gebäuden oder der Umwelt, das World
Wide Web mit Daten aus der eigenen
Webpräsenz oder dem eigenen Web
20
CeBIT Guide Business Intelligence 2012
• komplexere Analysen und Visualisierung der Inhalte (Dimension der
Analyse-Komplexität).
Der Nutzen von Big Data liegt vor allem
in der Analytik auf großen und neu zugänglichen Datenmengen und letztlich
der Verbindung dieser Analysen mit der
existierenden Welt der strukturierten
Daten. Dies eröffnet weitreichende Potentiale und Chancen, insbesondere
• neue und detailliertere Analysemöglichkeiten von Daten, die heute noch
gar nicht oder nur teilweise genutzt
werden können,
© isi Medien, München
• aber auch eine höhere Flexibilität des
Gesamtsystems für neue Analyseanforderungen sowie Nutzung flexiblerer Liefermodelle für On-DemandAnalyse in Cloud-Lösungen.
Insgesamt ergibt die Nutzung neuer
Technologien, die für die Integration
und Analyse poly-strukturierter Daten
entwickelt wurde auch deutliche Kosteneinsparungsmöglichkeiten, die in der
Optimierung der Lösungen für diese
Aufgabenstellung und der teilweisen
Verfügbarkeit als Open-Source-Lösungen liegt.
Die wesentlichen Herausforderungen
anderseits liegen in vielen Bereichen:
• Das Aufstellen von Geschäftsfällen
fällt derzeit noch schwer, die eine BigData-Initiative rechtfertigen. Qualität
und Nutzen der Analyse-Ergebnisse
sind teilweise schwer abseh- und
quantifizierbar, auch aufgrund fehlender Erfahrungswerte am Markt.
• Die Abgrenzung zwischen Big-Data- und traditionellen BI- und DataWarehouse-Szenarien ist fließend.
Anwendungsfälle sind bezüglich Umsetzbarkeit mit der verfügbaren Infrastruktur und den Kosten zu prüfen.
Big Data setzt nicht zwingend neue
Technologien voraus.
• Eine geeignete Big-Data-Strategie ist
zu definieren, als eine Erweiterung einer BI-Strategie oder auch eine völlig
neue Aufstellung von Unternehmen
zur Nutzung des Produktionsfaktors
Daten und seiner Bedeutung für die
komparative Wettbewerbsposition.
• Die Integration mit der bestehenden
analytischen Infrastruktur stellt die
technologische Herausforderung im
Kombinationsbetrieb der Integration
und Verarbeitung poly-strukturierter
Daten mit der klassischen Analytik auf
strukturierten Daten. Ein Austausch
oder gegenseitiger Zugriff auf die Informationen zwischen den Systemen
muss konzeptionell, architektonisch
und technisch realisiert werden für
fachlich sinnvolle Anwendungen.
• Die Verfügbarkeit von geeigneten
Big-Data-Entwicklern und -Analysten
ist derzeit begrenzt. Gesucht werden
© isi Medien, München
neue Profile mit Programmier-KnowHow und mathematisch-analytischen
Fähigkeiten. Im englischen Sprachraum etabliert sich hierfür gerade
das Berufsprofil des „Data Scientist“.
Hauptaufgaben auf der technischen
Seite sind die Integration und Analyse der poly-strukturierten Daten u.a.
durch die Anwendung von Map/Reduce-Programmierframeworks. Nicht zu
unterschätzen ist auch die Visualisierung der „Massen“-Daten, die andere
Techniken erfordert als Geschäftsgrafik-orientierten Darstellungsformen
der klassischen BI-Welt.
• Das Thema Datenschutz und Ethik ist
insbesondere in Deutschland ein heißesThema. Die Abgrenzung zwischen
dem „was man darf“ und „was man
nicht darf“ ist unscharf und muss
rechtlich geprüft werden. Dies führt
zu einer Unsicherheit in der Anwendung von Big Data Anwendungen,
gerade bei Auswertungen der personenbezogenen Daten aus sozialen
Netzwerken.
• Letztendlich die Auswahl passender
Technologien für die Einbindung der
neuen Datenquellen, derTransformationen und Integrationsregel, der Speicherung der Daten, dem Laden der
Analyseergebnisse und der Analyse
und Visualisierung ist eine Herausforderung ansich. Das Lösungsangebot
am Markt ist groß und die Einsatzgebiete der unterschiedlichen Technologien nicht immer ganz ersichtlich.
• Skalierbarkeit, Performance, RealTime-Bereitstellung und Wartbarkeit
sind wie in klassischen BI-Szenarien
auch bei Big Data eine Herausforderung. Fehlende Reife von Lösungsangeboten und knappes Know How am
Markt verschärfen diese Themen.
Das Big Data Ecosystem – Marktstrukturierung für Big Data
Der Markt für Big Data Software ist so
vielschichtig wie die zu lösenden Aufgabenstellungen. Analog zu BI-, DWHoder Datenintegrations-Systemen
gibt es auch im Big-Data-Bereich eine
Vielzahl an alten und neuen Angeboten, die ähnliche Aufgabenstellung zur
klassischen BI adressieren.
Wesentlicher Kern von Big Data ist
der stark programmiergetriebene,
BARC-Studie „Data Warehousing
und Datenintegration“
Die BARC-Studie „Data Warehousing
und Datenintegration“ liefert umfassende Informationen zu Anbietern,
Software-Werkzeugen und aktuellen
Themen des Datenmanagements.
Führende Software-Lösungen werden auf Basis eines umfassenden
Kriterienkataloges detailliert verglichen und bewertet. Die Studie umfasst Produktbeschreibungen, technische Datenblätter und Analysen
zu den getesteten Werkzeugen.
Weitere Informationen zur Studie
finden Sie unter www.barc.de/dw
daten-zentrische Kern auf Basis des
MapReduce-Ansatzes, den Google
zur Popularität verhalf. Der Ansatz ist
simpel: Zerlege die Aufgabe in ihre
kleinsten Teile, verteile diese Aufgaben
zur massiv parallelen Verarbeitung auf
sehr viele Rechner (map) und führe das
Ergebnis wieder zusammen (reduce).
Damit wird vor allem die Verarbeitung
poly-strukturierter Daten ermöglicht,
mit denen klassisch relationalen Datenbanken, aber auch DWH Appliances oder Massiv-Parallele relationale
Datenbanken ihre Probleme haben.
Herausforderung in der Speicherung
und Verarbeitung dieser Daten öffnete den Markt für spezielle Dateisysteme wie bspw. das Hadoop-eigene
Hadoop-File-Systeme (HDFS) aber
vor allem zahlreiche NoSQL (Not only
SQL) Datenbanken, die größtenteils
für spezifische Einsatzzwecke optimiert
verfügbar sind. Der Zugriff erfolgt bei
den NoSQL-Datenbanken in der Regel
noch über technische Schnittstellen
und nicht über bekannte Abfragesprachen wie SQL. Die in NoSQL schwer
umzusetzende Konsistenz von Daten,
oder typische relationale Operationen
wie die Zusammenführung von Tabellen (Join), Gruppierung oder auch Selektion zeigen die Notwendigkeit auf,
die bekannte analytische SQL/MDXWelt mit der programm-orientierten
Welt der NoSQL-Datenbanken zu verheiraten. Am Markt zeigt sich dies zum
einem durch Fragen nach bewährten
Integrationsstrategien als auch schon
CeBIT Guide Business Intelligence 2012
21
Abbildung 1: Das Bild zeigt eine klassische analytische Architektur in direktem Vergleich zu einer Big-Data-Anwendung, größtenteils basierend auf Hadoop Komponenten (blauer Bereich). Die Anwendung besteht analog der BI-Referenzarchitekturen
aus Komponenten für die Datenintegration, Datenspeicherung, Datenanalytik und Auswertung/Visualisierung. Der grundlegende Unterschied zur BI ist die daten-zentrische Ausrichtung auf Basis des MapReduce Programmierframeworks, welches
eine hoch parallele Verarbeitung von Daten ohne zusätzliche Programmierung ermöglicht. Weitere Produkte ergänzen das
Framework.
durch erste Hybrid-Technologien wie
bspw. AsterData von Teradata, EMC
Greenplum oder das Open Source
Projekt HIVE. Neben NoSQL und Hybriden sind auch Spezialisten am Markt
verfügbar, die mit Big Data Lösungen
oder Appliances aufwarten. Selten
steht dahinter eine eigene Technologie, vielmehr handelt es sich dabei um
Hadoop Distributionen von Anbietern
wie Cloudera oder den großen Anbieter wie IBM und Microsoft, ergänzt um
weitere zusätzliche – auch „eigene“
Werkzeuge und Technologien.
Datenintegrationswerkzeuge. Big Data
Funktionen umfassen hier Adapter in
Hadoop-Dateisysteme wie HDFS oder
HIVE sowie auch die Integration mit
dem MapReduce Framework. Alternativen zur Einbindung von poly-strukturierten Datenquellen bieten Spezialisten wie Hadoop Chukwa, Flume oder
Sqoop.
die interaktive Datenexploration und
Visualisierung für Fachanwender. Hier
finden sich zahlreiche Spezialisten, die
Lösungen für spezielle Anwendungsgebiete wie Analyse von Web Logs,
E-Commerce Daten, Blogs & Twitter,
Social Media Netzwerken usw. anbieten. Daneben existieren BI-Spezialisten
wie Datameer, die sich vornehmlich auf
einen Zugriff auf Big-Data-Infrastrukturen konzentrieren. Letztlich fangen
auch die etablierten BI-Anbieter an, z.B.
über Hive einen ergänzenden Zugriff
auf neue Datenquellen zu schaffen.
Die kleinen und wendigen Anbieter wie
Tableau, Pentaho oder Jaspersoft sind
die ersten im Markt. Die großen Anbieter werden höchst wahrscheinlich bald
folgen – wie immer teils durch Eigenentwicklung und teils durch Zukauf.
Auf der Ebene der Datenintegration
steht die Geschwindigkeit und die
Integration der heterogenen Datenquellen und -typen im Vordergrund.
Zu beobachten ist die Integration von
Big-Data-Funktionen in die etablierten
Die Analytik poly-strukturierter Daten
wird einerseits stark getrieben durch
die Modellbildung auf Basis von Detaildaten. Hier findet die sehr umfangreiche Open-Source-Bibliothek R aber
auch andere Data-Mining-Werkzeuge
großen Anklang. Andererseits existieren für die Big-Data-Welt auch die
klassischen BI-Anforderungen nach
Dashboards und Berichten oder auch
einfacheren Analyseumgebungen und
22
CeBIT Guide Business Intelligence 2012
© isi Medien, München
Ausblick
Big Data ist ein Marketingbegriff, der
Methoden und Technologien subsumiert um Datenvolumen, Komplexität,
Geschwindigkeit und neue Analytik
zu beherrschen, die mit klassischen
BI-Technologien nicht mehr sinnvoll
umgesetzt werden können. Vor den
steigenden Datenschätzen dieser Welt
können Unternehmen ihre Augen nicht
verschließen und so ist Big Data sicher
ein Erfolgskriterium um sich von der
Konkurrenz abheben zu können. Die
technischen Möglichkeiten dafür sind
durchaus erschwinglich. Open-Source-Lösungen und attraktive Angebote
in der Cloud bspw. ermöglichen die
Nutzung der notwendigen Werkzeuge
und geben tiefen Einblick in die Daten
oder bieten auch die Möglichkeit Big
Data mit eigenen Daten zu testen. Um
poly-strukturierte Daten sinnvoll zu
verarbeiten und wertvolle Ergebnisse
daraus abzuleiten müssen allerdings
„Data Scientists“ mit gefunden oder
ausgebildet werden, die schon heute
eine knappe Ressource darstellen.
Am Softwaremarkt zeigen sich viele
Strömungen, um Lösungen für Big
Data Aufgabenstellungen anbieten
zu können. Im Open-Source-Bereich
ist es vor allem das Apache Hadoop
Framework mit vielen ergänzenden
Werkzeugen, das im Fokus der Aufmerksamkeit steht. Wie bei anderen
Open-Source-Projekten auch entwickeln sich langsam Distributoren, die
Bündelung und Support übernehmen
und Aufwand sowie Risiko für Unternehmen reduzieren. Inzwischen setzen
alle großen Anbieter auf Hadoop, teils
mit eigenen Distributionen teils mit
Partnerschaften. Etablierte Anbieter
stellen sich momentan für Big Data auf.
Häufig wird eine Hadoop-Integration
geboten, teilweise werden auch eigene Lösungen für Big Data geschaffen.
Wie üblich im Softwaremarkt, wird es
abhängig von der wachsenden Nachfrage zu einer Konsolidierungswelle
kommen, in denen die großen Anbieter vielversprechende Spezialisten im
eigenen Lösungsportfolio aufgehen
lassen. Neben der Auswahl von Lösungen ist für Unternehmen ebenso
wichtig, die Integration von geplanten
Big-Data-Anwendungen in die bestehende analytische Infrastruktur zu konzipieren. Ergebnisse der Analysen von
großen Mengen poly-strukturierter
© isi Medien, München
Daten sind häufig Kennzahlen oder andere strukturierte Information, die Unternehmen im Data Warehouse weiter
verarbeiten möchten. Umgekehrt sind
die qualitätsgesicherten Kennzahlen
der Data-Warehouse-Welt interessante ergänzende Informationen, die bei
der Analyse poly-strukturierter Daten
hinzugezogen werden sollen. Werden
beispielsweise riesige Mengen an WebLogdaten zur Steuerung von Angeboten auf der Webseite genutzt, so ist das
Zusammenführen der Daten über das
Verhalten auf der Webseite im Big Data
Framework mit den Daten zum historischen Kaufverhalten des Kunden im
Data Warehouse sehr interessant.
Autoren
Der Softwaremarkt ist noch in einer
frühen Phase und auch potentielle
Anwendungsgebiete in Unternehmen
werden sondiert und pilotiert. Unternehmen sollten die Zeit nutzen und
die neuen Möglichkeiten von Big Data
evaluieren aber auch gegenwärtige
Anforderungen nach hoher Abfrageperformance, guter Datenqualität und
der Agilität der BI-Systems durch die
Implementierung und das Leben einer
Information Governance im Kern vorantreiben. Dies bietet letztendlich die
solide Basis um neue Ideen in der Petaund Zetabyte-Welt umzusetzen.
Dipl.-Kfm. Timm Grosser ist Senior Analyst und
Berater am Business Application Research Center
(BARC) im Bereich Business Intelligence. Seine
Spezialgebiete sind entscheidungsunterstützende
Informationssysteme mit besonderem Fokus auf
Themen des Datenmanagement. Timm Grosser
ist Hauptautor der Softwarevergleichsstudie Data
Warehousing und Datenintegration und untersuchte bereits zahlreiche Lösungen und den SoftwareMarkt für Data Warehousing, Datenintegration
sowie Datenqualität. Er ist häufiger Redner auf
Tagungen und Seminaren sowie Autor von Fachartikeln und Marktstudien.
Dr. Carsten Bange ist geschäftsführender Gesellschafter des Business Application Research Centers
(BARC). Er ist seit mehr als zehn Jahren für nationale und internationale Unternehmen verschiedenster Branchen und Größen im Rahmen der Strategieund Architekturberatung, Werkzeugauswahl und
Qualitätssicherung in Business-Intelligence- und
Datenmanagement-Projekten tätig. Als neutraler
Beobachter des Softwaremarktes ist er ein häufiger
Redner bei Tagungen und Seminaren sowie Autor
zahlreicher Fachpublikationen und Marktstudien.
CeBIT Guide Business Intelligence 2012
23
Herunterladen