Ratgeber Integration von Big Data

CITO Research
Advancing the craft of technology leadership
SEPTEMBER 2013
Ratgeber Integration
von Big Data
Gesponsert von
Inhalt
Einführung
1
Herausforderungen der Big-Data-Integration:
Neues und Altes
1
Voraussetzungen für die Big-Data-Integration
3
Bevorzugte Technologiearchitektur
6
Die Vorteile einer gelungenen
Big-Data-Integration
7
Ratgeber Integration von Big Data
1
CITO Research
Advancing the craft of technology leadership
Einführung
Das als Big Data bekannte Phänomen der Verfügbarkeit neuer Datentypen in enormen
Mengen führt dazu, dass CIOs und Führungskräfte ihr aktuelles Technologieportfolio
überdenken. Die meisten Unternehmen entwickeln keine eigene Infrastruktur, sondern
kaufen sie ein. Aber was sollten sie kaufen? Und wie können sie alle Komponenten zu einem
kohärenten Ganzen zusammenfügen?
Die erste Herausforderung von Big Data besteht darin, dass es neue Technologien erfordert.
Allerdings macht Big Data nicht alle anderen Datentypen und Technologien überflüssig.
Hadoop, NoSQL-Datenbanken, analytische Datenbanken und Data Warehouses werden Seite
an Seite eingesetzt. Für Analysten ist die Herkunft der auszuwertenden Daten nebensächlich.
Die zweite Herausforderung besteht in der Datenintegration. Wie kann die neue Technologie
zur Verarbeitung von Big Data alle bereits verfügbaren Daten und Technologien nutzen?
Wie können die vorhandenen Technologien und Daten durch die Einbeziehung von Big
Data verbessert werden? Wie können neue Analyse- und Anwendungstypen sowohl das
Alte als auch das Neue nutzen?
CITO Research ist davon überzeugt, dass CIOs und Führungskräfte den Fortschritt
beschleunigen können, indem sie sich darauf konzentrieren, die neue Welt von Big Data mit
der alten Welt von BI zu kombinieren. In diesem Ratgeber wird die Herangehensweise für
den Einkauf von Technologien zur Big-Data-Integration beschrieben.
Herausforderungen der Big-DataIntegration: Neues und Altes
Big-Data-Kenner wissen, worin der Unterschied zwischen Big Data und Daten vorheriger
Generationen besteht. Der Gartner-Analyst Doug Laney hat Big Data anhand der 3 Vs
charakterisiert: Volume, Variety und Velocity (Menge, Vielfalt, Geschwindigkeit).
Eine besondere Herausforderung besteht darin, ein für die Bewältigung enormer Datenmengen geeignetes Repository zu finden. Ein verwandtes Problem ist die Analyse der
Datenströme, die von Maschinen, Servern und Mobilgeräten (dem sogenannten Internet der
Dinge) erzeugt werden. Für die Bewältigung riesiger Mengen verschiedenster Daten wurde
das Hadoop-Ökosystem entwickelt, aber es existieren auch viele andere Produkte, die enorme
Mengen maschinenorientierter Big Data durchsieben können, beispielsweise Splunk.
Eine weitere neue Herausforderung besteht darin, dass zur Untersuchung und Analyse
von Maschinendaten oft neue Techniken erforderlich sind. Big Data ist zu großen Teilen
unstrukturiert. Darüber hinaus zählen zu den Datentypen oft auch unbearbeitete
Textdokumente und Videos. Maschinelles Lernen, Text- und Videoanalysen und viele
weitere Techniken werden auf Daten in Hadoop, NoSQL-Datenbanken und analytischen
Datenbanken angewendet, um unübersichtlich wirkende Daten aussagekräftig zu machen.
Wenn diese Herausforderungen bewältigt sind, ähneln die weiteren Aufgaben, die mit
der Nutzung von Big Data verbunden sind, den von der Verarbeitung herkömmlicher
Daten bekannten Aufgaben (siehe „Gemeinsame Herausforderungen bei Big Data und
vorhandenen Daten“).
Ratgeber Integration von Big Data
2
CITO Research
Advancing the craft of technology leadership
Gemeinsame Herausforderungen von Big Data und
vorhandenen Daten
QQ
Zusammenführen von Daten aus verschiedenen Quellen
QQ
Unterstützen von Untersuchungen
QQ
Erstellen einer wiederverwendbaren “Single Version of Truth”
QQ
Entwickeln von Blending-Datasets für umfassendere Analysen
QQ
Erweitern der Nutzung von Daten
QQ
Erstellen erweiterter analytischer Umgebungen
QQ
Unterstützen von Anwendungen
QQ
Steuern des Zugriffs
QQ
Verwalten des Analyselebenszyklus
QQ
Sicherstellen der Compliance
Die Gleichung für die Handhabung von Big Data sieht wie folgt aus:
(Repository zur Speicherung und Verarbeitung von Big Data) +
(Neue Techniken zur Big-Data-Analyse) + (Vorhandene BI)
= Integrierte Big-Data-Umgebung
Big Data führt möglicherweise zu vielen Änderungen beim Einsatz von BI, aber es macht
BI nicht überflüssig. Dies bedeutet, dass beim richtigen Pfad zur Big-Data-Integration
vorhandene, für den Umgang mit Big Data modifizierte Datenintegrationslösungen
eingesetzt werden.
Darüber hinaus besteht ein Unterschied zwischen der Durchführung von
Machbarkeitsstudien und der Einbindung von Big Data in die Geschäftsprozesse
des Unternehmens. Eine Technologie zur Big-Data-Integration sollte nicht nur für
wissenschaftliche Experimente geeignet sein, sondern alle Phasen des Verfahrens zur
vollständigen Nutzung von Big Data in Verbindung mit vorhandenen Anwendungen und
Systemen für BI unterstützen.
Ratgeber Integration von Big Data
3
CITO Research
Advancing the craft of technology leadership
Vom Hub-and-Spoke-Prinzip zur Datenlieferkette
Die Kombination von Big Data mit vorhandener BI führt zu einer großen konzeptionellen
Änderung. Das Data Warehouse wird nicht mehr im absoluten Mittelpunkt stehen. Viele SpezialRepositorys werden Anwendungen oder neue Analyseformen unterstützen. Zudem werden
immer mehr Daten über APIs aus Quellen kommen, die außerhalb des Unternehmens liegen.
Die Datenverarbeitungsinfrastruktur wird nicht mehr dem Hub-and-Spoke-Prinzip entsprechen,
bei dem das Data Warehouse im Zentrum steht, sondern eher einer verteilten Lieferkette ähneln.
Big Data ist der Haupttreiber dieses neuen Paradigmas, und die Integration von Big Data
ermöglicht seine Umsetzung. CIOs und Führungskräfte, die schnell von Big Data und
vorhandener BI profitieren möchten, sollten sich auf den Erwerb folgender Funktionen
konzentrieren, da sie die Grundlage einer neuen Datenlieferkette bilden.
Voraussetzungen für die Big-Data-Integration
Die aktuelle
Generation von
Integrationstechnologie bietet
viele Funktionen
zum Zugreifen auf
Daten sowie zum
Verschieben und
Transformieren
von Daten, aber
mit Big Data
kommen neue
Anforderungen
hinzu.
Um beim Zusammenstellen eines Systems für die Big-Data-Integration die richtige Auswahl
zu treffen, ist zunächst zu prüfen, was benötigt wird. In den meisten Organisationen werden
zur Unterstützung der Big-Data-Integration folgende Funktionen benötigt.
Verbinden, Transportieren und Transformieren
Das Zugreifen auf Daten sowie das Verschieben und Transformieren von Daten ist
seit mehreren Generationen von Datenintegrationstechnologie von entscheidender
Bedeutung. Die Integration von Big Data sorgt hier für einige Neuerungen.
Der Zugriff auf Daten über Hadoop, NoSQL-Datenbanken und analytische Datenbanken
muss unterstützt werden. Die Möglichkeit, Schemas zu definieren oder zu erkennen, ist
äußerst wichtig.
Moderne Datenintegrationstechnologie muss sowohl in der Cloud als auch vor Ort
bereitgestellt werden.
Die Datensynchronisierung zwischen Repositorys ist erforderlich, da die Datenlieferkette
komplexer wird. Die Transportmechanismen der Datenintegrationstechnologie müssen noch
ausgereifter sein, um den Verkehr handhaben zu können. Die durch die Big-Data-Analyse
gewonnenen Erkenntnisse müssen an Anwendungen übergeben werden, um detailliertere
und höher aufgelöste Modelle der Realität zu unterstützen. Beispielsweise werden Daten
nicht einfach in SQL-Datenbanken verwaltet, sondern mit In-Memory-Analysetechnologie
synchronisiert.
Wie schon bisher ist die Fähigkeit zum Transformieren von Daten von entscheidender
Bedeutung. Das Entwerfen und Implementieren von Transformationen sollte mithilfe von
Tools so einfach wie möglich gestaltet werden. Zum Durchführen einer Analyse müssen
Analysten Daten aus vielen Quellen kombinieren und destillieren. Ein Großteil dieser Arbeit
findet auf der Datenintegrationsebene statt. Transformationen müssen wiederverwendbar
und gemeinsam nutzbar sein.
Die Integration von Big Data setzt voraus, dass Echtzeit-Datenströme aus
Messagingsystemen, Enterprise-Service-Buses und Serverprotokolldateien verarbeitet
werden können.
Ratgeber Integration von Big Data
4
CITO Research
Advancing the craft of technology leadership
Integration und kanonische Formen
Welche Änderungen sind mit Big Data verbunden?
Bei der Evaluierung
von Technologien
zur Big-DataIntegration muss
sichergestellt werden,
dass Big Data und
vorhandene Daten
einfach integriert und
in kanonischer Form
gespeichert werden
können.
Folgendes wird nicht geschehen: Weder werden alle Daten und Anwendungen auf Big
Data basieren noch wird Big-Data-Technologie als Haupt-Repository genutzt. Weder alle BIDaten noch alle Data Warehouses werden sofort nutzlos.
Und auch Folgendes wird nicht geschehen: Big Data allein wird nicht alle wichtigen
Geschäftsfragen beantworten.
Was bedeutet das? Es bedeutet einfach, dass die richtige Antwort oft gefunden wird, indem
Big Data mit Stammdaten und Transaktionsdaten kombiniert wird, die in Data Warehouses
gespeichert werden.
Um Big Data optimal nutzen zu können, muss es mit vorhandenen Daten kombinierbar
sein. Diese Art von Datenintegration ist auf allen Analysestufen von entscheidender
Bedeutung, von der Datenreinigung über die Erstellung von Spezial-Repositorys bis
hin zur Unterstützung erweiterter Visualisierungen. Es ist deshalb wichtig, dass die
Datenintegrationstechnologie Big Data mit vorhandenen Formen von Daten
kombiniert, die in der Regel in SQL-Repositorys gespeichert werden.
Mit anderen Worten: Es kommt darauf an, eine Technologie zu wählen, die sowohl die
native Sprache von Big-Data-Quellen wie Hadoop, NoSQL-Datenbanken und analytischen
Datenbanken als auch herkömmliches SQL unterstützt. Big-Data-Silos mit separater
Infrastruktur, separatem Team und separaten Qualifikationen sind zu vermeiden.
Um Big Data mit den Anforderungen vorhandener Daten zu kombinieren, müssen
kanonische Formen verschiedener Arten von Informationen erstellt werden. Ein
Kundenstammdatensatz, der eine 360-Grad-Ansicht eines Kunden bereitstellt, war lange ein
Ziel von BI-Systemen. In der Ära von Big Data können Kundendatensätze durch Aktivitäten in
sozialen Medien, Daten mobiler Anwendungen, Websiteverwendung usw. ergänzt werden.
Zudem ist es wichtig, kanonische Definitionen von Daten in einem Lebenszyklus zu verwalten,
sodass Änderungen an den Standardformen von Daten kontrolliert werden können.
Datenuntersuchung
Eine Technologie
zur Integration
von Big Data sollte
Untersuchungen
auf allen Ebenen
der Datenlieferkette
mit automatischer
Schemaerkennung
und Visualisierung
unterstützen.
Bei der Nutzung von Daten in Unternehmen ist es wichtig, dass alle beteiligten Personen –
Analysten, Endanwender, Entwickler und alle anderen Interessierten – in der Lage sind, mit
den Daten zu spielen und Fragen zu stellen. Ein entsprechend unkomplizierter Ansatz zum
Untersuchen und Erkunden der Daten ist auf allen Ebenen des Systems erforderlich.
Es ist nicht wichtig, ob sich die Daten in einem Hadoop-Cluster, einer NoSQL-Datenbank,
einem Spezial-Repository, einer In-Memory-Analyseumgebung oder einer Anwendung
befinden. Die besten Ergebnisse werden erzielt, wenn jeder, der eine Frage hat,
ausprobieren kann, ob sie mit den Daten beantwortet werden kann.
Im Zusammenhang mit Big Data bedeutet dies in der Regel, dass eine Art
Untersuchungsumgebung in Verbindung mit den Repositorys verwendet wird, auf deren
Daten üblicherweise nur durch Schreiben von Programmen oder über komplizierte
Abfragemechanismen zugegriffen werden kann. Untersuchungen müssen jedoch auch
unterstützt werden, wenn Big Data mit anderen Daten kombiniert wird. Während
Ratgeber Integration von Big Data
5
CITO Research
Advancing the craft of technology leadership
Analysten und Entwickler Daten in Repositorys untersuchen, müssen Endanwender in der Lage
sein, Daten in den von ihnen verwendeten Anwendungen und analytischen Umgebungen zu
untersuchen.
Eine der größten Herausforderungen beim Erstellen von Untersuchungsumgebungen für
Big Data besteht darin, dass die Daten in den meisten Fällen nicht in Zeilen und Tabellen
strukturiert sind. Jeder Datensatz kann aus vielen verschiedenen Teilen bestehen. Mehrere
Datensätze können eine Gruppe bilden, die ein Objekt darstellt. Möglicherweise spielt der
Zeitpunkt der Erstellung des jeweiligen Datensatzes eine größere Rolle bei der Gruppierung.
Eine Technologie zur Big-Data-Integration muss die schnelle Untersuchung von Daten
mit einer flexiblen Struktur unterstützen, indem spontan Schemas zur Identifizierung
möglicher Felder und Muster erstellt werden.
Die Datenuntersuchung kann durch Visualisierung enorm beschleunigt werden. Seit Mitte
der 2000er Jahre wurden in der Welt der Business Intelligence riesige Fortschritte beim
Erstellen attraktiver Visualisierungen gemacht. Mit den besten dieser Systeme können
Analysten die verfügbaren Daten in einer attraktiven Form anzeigen, um dann Fragen zu
stellen und zu beantworten und neue Erkenntnisse zu gewinnen. Die beste Technologie
zur Big-Data-Integration ermöglicht die visuelle Untersuchung von Daten, in welchem
Repository auch immer sie gespeichert sind.
Indem die von
Analysten gestellten
Anforderungen
zum Bereinigen
und Destillieren
von Daten mithilfe
maschinellen
Lernens sowie ihre
Anforderungen
zur gemeinsamen
Nutzung der
Ergebnisse
unterstützt
werden, wird die
Beantwortung
von Fragen, die
Entwicklung von
Anwendungen und
die Unterstützung
von Visualisierungen
beschleunigt.
Unterstützung bei Analysen
Datenanalytiker aller Bereiche wissen, dass bei der Suche nach Antworten bzw. bei der
Erstellung analytischer Anwendungen 80 Prozent der Arbeit vorab erbracht wird, nämlich bei
der Bereinigung und Vorbereitung der Daten. Die Datenintegrationstechnologie war lange
Zeit das Arbeitsmittel von Analysten, die versuchen, den Prozess der Datenbereinigung
und -vorbereitung zu beschleunigen.
Im Bereich von Big Data bedeutet dies, dass alle bisher aufgeführten Funktionen verfügbar
sein müssen: einfach anwendbare Mechanismen zum Definieren von Transformationen, die
Funktion zum Erfassen und Wiederverwenden von Transformationen, die Funktion zum
Erstellen und Verwalten kanonischer Datenspeicher sowie die Funktion zum Ausführen
von Abfragen, vorzugsweise unter Einsatz von Visualisierungen. Selbstverständlich müssen
diese Funktionen für Big-Data-Repositorys sowie für Repositorys verfügbar sein, in denen
alle Formen von Daten kombiniert werden.
Allerdings sehen sich Analysten auch mit Problemen konfrontiert, die für Big Data spezifisch
sind. Wie bereits erwähnt, wirkt Big Data oft unübersichtlich. Daher ist zum Identifizieren
relevanter Signale maschinelles Lernen erforderlich. Allerdings sind Techniken maschinellen
Lernens oft schwierig zu verwenden. Die beste Technologie zur Big-Data-Integration
unterstützt Analysten, indem sie durch maschinelles Lernen Vorschläge generiert, die
die Analysten dann in die richtige Richtung weiterentwickeln. Dieser geführte Ansatz
ist erforderlich, weil so viele Techniken maschinellen Lernens und so viele fortschrittliche
Analysetechniken für viele verschiedene Datentypen verfügbar sind. Das zur Erstellung
von Prognosemodellen verwendete maschinelle Lernen unterscheidet sich stark von dem
maschinellen Lernen, das bei der Kategorisierung unstrukturierten Texts zum Einsatz kommt.
Wenn ein Analyst ein, sauberes Dataset erstellt hat, kann er dessen Nutzen erweitern, indem er es
wiederverwendbar und gemeinsam nutzbar macht. Gegenwärtig werden neue Umgebungen
Ratgeber Integration von Big Data
6
CITO Research
Advancing the craft of technology leadership
zur Unterstützung der Zusammenarbeit und gemeinsamen Verwendung eingeführt. Einige
Umgebungen unterstützen das Blending von Big Data an der Quelle, um eine einfachere
Verwendung und optimale Speicherung von Big Data zu ermöglichen. Idealerweise sollte die
Technologie zur Big-Data-Integration solche Umgebungen unterstützen.
Die ideale
Technologie zur
Big-Data-Integration
sollte die Komplexität
reduzieren, durch
Abstraktionen
zukunftssicher
sein und möglichst
vielen Personen
und Systemen die
Nutzung der Daten
ermöglichen.
Bevorzugte Technologiearchitektur
Das ideale System für die Integration von Big Data sieht für jedes Unternehmen anders aus.
Besonders datenintensive Firmen brauchen in der Regel jede der aufgeführten Funktionen.
In den meisten Unternehmen werden zunächst einige dieser Funktionen benötigt, aber im
Laufe der Zeit entsteht üblicherweise Bedarf an zusätzlichen Funktionen.
Das ideale Verfahren zur Bereitstellung der Funktionen für die Big-Data-Integration besteht
darin, so wenige Systeme wie möglich zu erwerben, die die erforderlichen Features aufweisen.
Die meisten erwähnten Funktionen sind leistungsstärker, wenn sie zur Zusammenarbeit
entwickelt werden.
Im Bereich der Datenanalyse kam es immer wieder zu weitreichenden Änderungen,
und das wird auch in Zukunft der Fall sein. Daher sollte die beste Technologie die
Umsetzung solcher Änderungen abnehmen. Es sollte Aufgabe des Anbieters sein, einfach
anwendbare, leistungsstarke Abstraktionen zu entwickeln und zu warten. Die Tatsache, dass
sich Big-Data-Technologien weiterentwickeln, sollte nicht Problem des Anwenders sein. Dies
gilt auch für die unvermeidliche Gesundschrumpfung, die eintritt, wenn einige Varianten
der Technologien sowie manche Anbieter vom Markt verschwinden. Da man sich mit der
Entscheidung für eine Lösung in gewissem Umfang festlegt, ist eine Lösung zu bevorzugen,
die auf einer höheren Abstraktionsstufe angesiedelt ist.
Durch Wählen einer einfach anwendbaren Technologie können Qualifikationsengpässe vermieden werden. In vereinfachten Umgebungen können mehr Personen
direkt mit den Daten interagieren, und das ermöglicht mehr Entdeckungen und selbst
erstellte Lösungen.
Ein entscheidender finanzieller Faktor bei der Wahl der richtigen Technologie
ist das Lizenzmodell. Je nach Einsatzweise der Software und Verfügbarkeit interner
Qualifikationen für unterstützende Software kann der Erwerb verschiedener Funktionen
mit sehr unterschiedlichen Kosten verbunden sein. Es ist wichtig, die Vor- und Nachteile
herkömmlicher Lizenzen sowie von Open-Source-Software und verschiedenen hybriden
Angeboten zu verstehen.
Die besten Systeme für die Big-Data-Integration sind für die Einbettung in andere
Umgebungen ausgelegt. Die vereinfachten Formen der Transformation sollten auf Big-DataQuellen oder SQL-Repositorys anwendbar und in MapReduce oder Anwendungen nutzbar
sein. Visualisierungen sollten in Webseiten, Anwendungen usw. angezeigt werden können.
Ratgeber Integration von Big Data
7
CITO Research
Advancing the craft of technology leadership
Die Vorteile einer gelungenen
Big-Data-Integration
Daten werden erst dann wertvoll, wenn sie Menschen zugänglich gemacht werden, die
sie auf die eine oder andere Weise nutzen können, oder wenn sie in einem von Menschen
entwickelten automatisierten System verwendet werden können. Die Motivation für die
Integration von Big Data besteht darin, den Zugriff auf Daten sowie das Verstehen und
Verwenden von Daten so einfach wie möglich zu machen.
Die Vorteile einer gelungenen Big-Data-Integration bestehen in dem Nutzen, der aus der
Verwendung der Daten entsteht. Durch das Reduzieren von Verzögerungen, Eliminieren
von Qualifikationsengpässen und Vereinfachen der Interaktion werden Organisationen in
die Lage versetzt, sich schneller und effektiver zu bewegen.
Durch den Erwerb von Komponenten und Systemen, die Teil einer kohärenten Vision
sind, können Kosten reduziert werden, ohne Kompromisse hinsichtlich der erforderlichen
Funktionen einzugehen.
Die eingangs formulierten Fragen sollten jetzt leichter zu beantworten sein:
Was sollte gekauft werden? So wenige Systeme wie möglich, wobei wichtig ist, dass sie die jetzt
und in Zukunft benötigten Funktionen bieten, einfach anwendbar und zukunftssicher sind.
Worin besteht das kohärente Ganze? Es besteht in der Vision einer Big-Data-Integration, die
vorhandene Datenformen und -quellen in ein neues System integriert, das alle Phasen einer
Datenlieferkette unterstützt.
CITO Research
CITO Research ist eine Quelle von Nachrichten, Analysen, Forschung und Wissen für
CIOs, CTOs und andere IT- und Business-Experten. CITO Research steht mit seiner
Zielgruppe im Dialog, um Technologietrends zu erfassen und mit modernsten
Methoden auszuwerten, zu analysieren und zu kommunizieren, um Praktikern beim
Lösen komplexer geschäftlicher Probleme zu helfen.
Besuchen Sie uns unter http://www.citoresearch.com
Dieser Ratgeber wurde von CITO Research erstellt und von Pentaho gesponsert.