CITO Research Advancing the craft of technology leadership SEPTEMBER 2013 Ratgeber Integration von Big Data Gesponsert von Inhalt Einführung 1 Herausforderungen der Big-Data-Integration: Neues und Altes 1 Voraussetzungen für die Big-Data-Integration 3 Bevorzugte Technologiearchitektur 6 Die Vorteile einer gelungenen Big-Data-Integration 7 Ratgeber Integration von Big Data 1 CITO Research Advancing the craft of technology leadership Einführung Das als Big Data bekannte Phänomen der Verfügbarkeit neuer Datentypen in enormen Mengen führt dazu, dass CIOs und Führungskräfte ihr aktuelles Technologieportfolio überdenken. Die meisten Unternehmen entwickeln keine eigene Infrastruktur, sondern kaufen sie ein. Aber was sollten sie kaufen? Und wie können sie alle Komponenten zu einem kohärenten Ganzen zusammenfügen? Die erste Herausforderung von Big Data besteht darin, dass es neue Technologien erfordert. Allerdings macht Big Data nicht alle anderen Datentypen und Technologien überflüssig. Hadoop, NoSQL-Datenbanken, analytische Datenbanken und Data Warehouses werden Seite an Seite eingesetzt. Für Analysten ist die Herkunft der auszuwertenden Daten nebensächlich. Die zweite Herausforderung besteht in der Datenintegration. Wie kann die neue Technologie zur Verarbeitung von Big Data alle bereits verfügbaren Daten und Technologien nutzen? Wie können die vorhandenen Technologien und Daten durch die Einbeziehung von Big Data verbessert werden? Wie können neue Analyse- und Anwendungstypen sowohl das Alte als auch das Neue nutzen? CITO Research ist davon überzeugt, dass CIOs und Führungskräfte den Fortschritt beschleunigen können, indem sie sich darauf konzentrieren, die neue Welt von Big Data mit der alten Welt von BI zu kombinieren. In diesem Ratgeber wird die Herangehensweise für den Einkauf von Technologien zur Big-Data-Integration beschrieben. Herausforderungen der Big-DataIntegration: Neues und Altes Big-Data-Kenner wissen, worin der Unterschied zwischen Big Data und Daten vorheriger Generationen besteht. Der Gartner-Analyst Doug Laney hat Big Data anhand der 3 Vs charakterisiert: Volume, Variety und Velocity (Menge, Vielfalt, Geschwindigkeit). Eine besondere Herausforderung besteht darin, ein für die Bewältigung enormer Datenmengen geeignetes Repository zu finden. Ein verwandtes Problem ist die Analyse der Datenströme, die von Maschinen, Servern und Mobilgeräten (dem sogenannten Internet der Dinge) erzeugt werden. Für die Bewältigung riesiger Mengen verschiedenster Daten wurde das Hadoop-Ökosystem entwickelt, aber es existieren auch viele andere Produkte, die enorme Mengen maschinenorientierter Big Data durchsieben können, beispielsweise Splunk. Eine weitere neue Herausforderung besteht darin, dass zur Untersuchung und Analyse von Maschinendaten oft neue Techniken erforderlich sind. Big Data ist zu großen Teilen unstrukturiert. Darüber hinaus zählen zu den Datentypen oft auch unbearbeitete Textdokumente und Videos. Maschinelles Lernen, Text- und Videoanalysen und viele weitere Techniken werden auf Daten in Hadoop, NoSQL-Datenbanken und analytischen Datenbanken angewendet, um unübersichtlich wirkende Daten aussagekräftig zu machen. Wenn diese Herausforderungen bewältigt sind, ähneln die weiteren Aufgaben, die mit der Nutzung von Big Data verbunden sind, den von der Verarbeitung herkömmlicher Daten bekannten Aufgaben (siehe „Gemeinsame Herausforderungen bei Big Data und vorhandenen Daten“). Ratgeber Integration von Big Data 2 CITO Research Advancing the craft of technology leadership Gemeinsame Herausforderungen von Big Data und vorhandenen Daten QQ Zusammenführen von Daten aus verschiedenen Quellen QQ Unterstützen von Untersuchungen QQ Erstellen einer wiederverwendbaren “Single Version of Truth” QQ Entwickeln von Blending-Datasets für umfassendere Analysen QQ Erweitern der Nutzung von Daten QQ Erstellen erweiterter analytischer Umgebungen QQ Unterstützen von Anwendungen QQ Steuern des Zugriffs QQ Verwalten des Analyselebenszyklus QQ Sicherstellen der Compliance Die Gleichung für die Handhabung von Big Data sieht wie folgt aus: (Repository zur Speicherung und Verarbeitung von Big Data) + (Neue Techniken zur Big-Data-Analyse) + (Vorhandene BI) = Integrierte Big-Data-Umgebung Big Data führt möglicherweise zu vielen Änderungen beim Einsatz von BI, aber es macht BI nicht überflüssig. Dies bedeutet, dass beim richtigen Pfad zur Big-Data-Integration vorhandene, für den Umgang mit Big Data modifizierte Datenintegrationslösungen eingesetzt werden. Darüber hinaus besteht ein Unterschied zwischen der Durchführung von Machbarkeitsstudien und der Einbindung von Big Data in die Geschäftsprozesse des Unternehmens. Eine Technologie zur Big-Data-Integration sollte nicht nur für wissenschaftliche Experimente geeignet sein, sondern alle Phasen des Verfahrens zur vollständigen Nutzung von Big Data in Verbindung mit vorhandenen Anwendungen und Systemen für BI unterstützen. Ratgeber Integration von Big Data 3 CITO Research Advancing the craft of technology leadership Vom Hub-and-Spoke-Prinzip zur Datenlieferkette Die Kombination von Big Data mit vorhandener BI führt zu einer großen konzeptionellen Änderung. Das Data Warehouse wird nicht mehr im absoluten Mittelpunkt stehen. Viele SpezialRepositorys werden Anwendungen oder neue Analyseformen unterstützen. Zudem werden immer mehr Daten über APIs aus Quellen kommen, die außerhalb des Unternehmens liegen. Die Datenverarbeitungsinfrastruktur wird nicht mehr dem Hub-and-Spoke-Prinzip entsprechen, bei dem das Data Warehouse im Zentrum steht, sondern eher einer verteilten Lieferkette ähneln. Big Data ist der Haupttreiber dieses neuen Paradigmas, und die Integration von Big Data ermöglicht seine Umsetzung. CIOs und Führungskräfte, die schnell von Big Data und vorhandener BI profitieren möchten, sollten sich auf den Erwerb folgender Funktionen konzentrieren, da sie die Grundlage einer neuen Datenlieferkette bilden. Voraussetzungen für die Big-Data-Integration Die aktuelle Generation von Integrationstechnologie bietet viele Funktionen zum Zugreifen auf Daten sowie zum Verschieben und Transformieren von Daten, aber mit Big Data kommen neue Anforderungen hinzu. Um beim Zusammenstellen eines Systems für die Big-Data-Integration die richtige Auswahl zu treffen, ist zunächst zu prüfen, was benötigt wird. In den meisten Organisationen werden zur Unterstützung der Big-Data-Integration folgende Funktionen benötigt. Verbinden, Transportieren und Transformieren Das Zugreifen auf Daten sowie das Verschieben und Transformieren von Daten ist seit mehreren Generationen von Datenintegrationstechnologie von entscheidender Bedeutung. Die Integration von Big Data sorgt hier für einige Neuerungen. Der Zugriff auf Daten über Hadoop, NoSQL-Datenbanken und analytische Datenbanken muss unterstützt werden. Die Möglichkeit, Schemas zu definieren oder zu erkennen, ist äußerst wichtig. Moderne Datenintegrationstechnologie muss sowohl in der Cloud als auch vor Ort bereitgestellt werden. Die Datensynchronisierung zwischen Repositorys ist erforderlich, da die Datenlieferkette komplexer wird. Die Transportmechanismen der Datenintegrationstechnologie müssen noch ausgereifter sein, um den Verkehr handhaben zu können. Die durch die Big-Data-Analyse gewonnenen Erkenntnisse müssen an Anwendungen übergeben werden, um detailliertere und höher aufgelöste Modelle der Realität zu unterstützen. Beispielsweise werden Daten nicht einfach in SQL-Datenbanken verwaltet, sondern mit In-Memory-Analysetechnologie synchronisiert. Wie schon bisher ist die Fähigkeit zum Transformieren von Daten von entscheidender Bedeutung. Das Entwerfen und Implementieren von Transformationen sollte mithilfe von Tools so einfach wie möglich gestaltet werden. Zum Durchführen einer Analyse müssen Analysten Daten aus vielen Quellen kombinieren und destillieren. Ein Großteil dieser Arbeit findet auf der Datenintegrationsebene statt. Transformationen müssen wiederverwendbar und gemeinsam nutzbar sein. Die Integration von Big Data setzt voraus, dass Echtzeit-Datenströme aus Messagingsystemen, Enterprise-Service-Buses und Serverprotokolldateien verarbeitet werden können. Ratgeber Integration von Big Data 4 CITO Research Advancing the craft of technology leadership Integration und kanonische Formen Welche Änderungen sind mit Big Data verbunden? Bei der Evaluierung von Technologien zur Big-DataIntegration muss sichergestellt werden, dass Big Data und vorhandene Daten einfach integriert und in kanonischer Form gespeichert werden können. Folgendes wird nicht geschehen: Weder werden alle Daten und Anwendungen auf Big Data basieren noch wird Big-Data-Technologie als Haupt-Repository genutzt. Weder alle BIDaten noch alle Data Warehouses werden sofort nutzlos. Und auch Folgendes wird nicht geschehen: Big Data allein wird nicht alle wichtigen Geschäftsfragen beantworten. Was bedeutet das? Es bedeutet einfach, dass die richtige Antwort oft gefunden wird, indem Big Data mit Stammdaten und Transaktionsdaten kombiniert wird, die in Data Warehouses gespeichert werden. Um Big Data optimal nutzen zu können, muss es mit vorhandenen Daten kombinierbar sein. Diese Art von Datenintegration ist auf allen Analysestufen von entscheidender Bedeutung, von der Datenreinigung über die Erstellung von Spezial-Repositorys bis hin zur Unterstützung erweiterter Visualisierungen. Es ist deshalb wichtig, dass die Datenintegrationstechnologie Big Data mit vorhandenen Formen von Daten kombiniert, die in der Regel in SQL-Repositorys gespeichert werden. Mit anderen Worten: Es kommt darauf an, eine Technologie zu wählen, die sowohl die native Sprache von Big-Data-Quellen wie Hadoop, NoSQL-Datenbanken und analytischen Datenbanken als auch herkömmliches SQL unterstützt. Big-Data-Silos mit separater Infrastruktur, separatem Team und separaten Qualifikationen sind zu vermeiden. Um Big Data mit den Anforderungen vorhandener Daten zu kombinieren, müssen kanonische Formen verschiedener Arten von Informationen erstellt werden. Ein Kundenstammdatensatz, der eine 360-Grad-Ansicht eines Kunden bereitstellt, war lange ein Ziel von BI-Systemen. In der Ära von Big Data können Kundendatensätze durch Aktivitäten in sozialen Medien, Daten mobiler Anwendungen, Websiteverwendung usw. ergänzt werden. Zudem ist es wichtig, kanonische Definitionen von Daten in einem Lebenszyklus zu verwalten, sodass Änderungen an den Standardformen von Daten kontrolliert werden können. Datenuntersuchung Eine Technologie zur Integration von Big Data sollte Untersuchungen auf allen Ebenen der Datenlieferkette mit automatischer Schemaerkennung und Visualisierung unterstützen. Bei der Nutzung von Daten in Unternehmen ist es wichtig, dass alle beteiligten Personen – Analysten, Endanwender, Entwickler und alle anderen Interessierten – in der Lage sind, mit den Daten zu spielen und Fragen zu stellen. Ein entsprechend unkomplizierter Ansatz zum Untersuchen und Erkunden der Daten ist auf allen Ebenen des Systems erforderlich. Es ist nicht wichtig, ob sich die Daten in einem Hadoop-Cluster, einer NoSQL-Datenbank, einem Spezial-Repository, einer In-Memory-Analyseumgebung oder einer Anwendung befinden. Die besten Ergebnisse werden erzielt, wenn jeder, der eine Frage hat, ausprobieren kann, ob sie mit den Daten beantwortet werden kann. Im Zusammenhang mit Big Data bedeutet dies in der Regel, dass eine Art Untersuchungsumgebung in Verbindung mit den Repositorys verwendet wird, auf deren Daten üblicherweise nur durch Schreiben von Programmen oder über komplizierte Abfragemechanismen zugegriffen werden kann. Untersuchungen müssen jedoch auch unterstützt werden, wenn Big Data mit anderen Daten kombiniert wird. Während Ratgeber Integration von Big Data 5 CITO Research Advancing the craft of technology leadership Analysten und Entwickler Daten in Repositorys untersuchen, müssen Endanwender in der Lage sein, Daten in den von ihnen verwendeten Anwendungen und analytischen Umgebungen zu untersuchen. Eine der größten Herausforderungen beim Erstellen von Untersuchungsumgebungen für Big Data besteht darin, dass die Daten in den meisten Fällen nicht in Zeilen und Tabellen strukturiert sind. Jeder Datensatz kann aus vielen verschiedenen Teilen bestehen. Mehrere Datensätze können eine Gruppe bilden, die ein Objekt darstellt. Möglicherweise spielt der Zeitpunkt der Erstellung des jeweiligen Datensatzes eine größere Rolle bei der Gruppierung. Eine Technologie zur Big-Data-Integration muss die schnelle Untersuchung von Daten mit einer flexiblen Struktur unterstützen, indem spontan Schemas zur Identifizierung möglicher Felder und Muster erstellt werden. Die Datenuntersuchung kann durch Visualisierung enorm beschleunigt werden. Seit Mitte der 2000er Jahre wurden in der Welt der Business Intelligence riesige Fortschritte beim Erstellen attraktiver Visualisierungen gemacht. Mit den besten dieser Systeme können Analysten die verfügbaren Daten in einer attraktiven Form anzeigen, um dann Fragen zu stellen und zu beantworten und neue Erkenntnisse zu gewinnen. Die beste Technologie zur Big-Data-Integration ermöglicht die visuelle Untersuchung von Daten, in welchem Repository auch immer sie gespeichert sind. Indem die von Analysten gestellten Anforderungen zum Bereinigen und Destillieren von Daten mithilfe maschinellen Lernens sowie ihre Anforderungen zur gemeinsamen Nutzung der Ergebnisse unterstützt werden, wird die Beantwortung von Fragen, die Entwicklung von Anwendungen und die Unterstützung von Visualisierungen beschleunigt. Unterstützung bei Analysen Datenanalytiker aller Bereiche wissen, dass bei der Suche nach Antworten bzw. bei der Erstellung analytischer Anwendungen 80 Prozent der Arbeit vorab erbracht wird, nämlich bei der Bereinigung und Vorbereitung der Daten. Die Datenintegrationstechnologie war lange Zeit das Arbeitsmittel von Analysten, die versuchen, den Prozess der Datenbereinigung und -vorbereitung zu beschleunigen. Im Bereich von Big Data bedeutet dies, dass alle bisher aufgeführten Funktionen verfügbar sein müssen: einfach anwendbare Mechanismen zum Definieren von Transformationen, die Funktion zum Erfassen und Wiederverwenden von Transformationen, die Funktion zum Erstellen und Verwalten kanonischer Datenspeicher sowie die Funktion zum Ausführen von Abfragen, vorzugsweise unter Einsatz von Visualisierungen. Selbstverständlich müssen diese Funktionen für Big-Data-Repositorys sowie für Repositorys verfügbar sein, in denen alle Formen von Daten kombiniert werden. Allerdings sehen sich Analysten auch mit Problemen konfrontiert, die für Big Data spezifisch sind. Wie bereits erwähnt, wirkt Big Data oft unübersichtlich. Daher ist zum Identifizieren relevanter Signale maschinelles Lernen erforderlich. Allerdings sind Techniken maschinellen Lernens oft schwierig zu verwenden. Die beste Technologie zur Big-Data-Integration unterstützt Analysten, indem sie durch maschinelles Lernen Vorschläge generiert, die die Analysten dann in die richtige Richtung weiterentwickeln. Dieser geführte Ansatz ist erforderlich, weil so viele Techniken maschinellen Lernens und so viele fortschrittliche Analysetechniken für viele verschiedene Datentypen verfügbar sind. Das zur Erstellung von Prognosemodellen verwendete maschinelle Lernen unterscheidet sich stark von dem maschinellen Lernen, das bei der Kategorisierung unstrukturierten Texts zum Einsatz kommt. Wenn ein Analyst ein, sauberes Dataset erstellt hat, kann er dessen Nutzen erweitern, indem er es wiederverwendbar und gemeinsam nutzbar macht. Gegenwärtig werden neue Umgebungen Ratgeber Integration von Big Data 6 CITO Research Advancing the craft of technology leadership zur Unterstützung der Zusammenarbeit und gemeinsamen Verwendung eingeführt. Einige Umgebungen unterstützen das Blending von Big Data an der Quelle, um eine einfachere Verwendung und optimale Speicherung von Big Data zu ermöglichen. Idealerweise sollte die Technologie zur Big-Data-Integration solche Umgebungen unterstützen. Die ideale Technologie zur Big-Data-Integration sollte die Komplexität reduzieren, durch Abstraktionen zukunftssicher sein und möglichst vielen Personen und Systemen die Nutzung der Daten ermöglichen. Bevorzugte Technologiearchitektur Das ideale System für die Integration von Big Data sieht für jedes Unternehmen anders aus. Besonders datenintensive Firmen brauchen in der Regel jede der aufgeführten Funktionen. In den meisten Unternehmen werden zunächst einige dieser Funktionen benötigt, aber im Laufe der Zeit entsteht üblicherweise Bedarf an zusätzlichen Funktionen. Das ideale Verfahren zur Bereitstellung der Funktionen für die Big-Data-Integration besteht darin, so wenige Systeme wie möglich zu erwerben, die die erforderlichen Features aufweisen. Die meisten erwähnten Funktionen sind leistungsstärker, wenn sie zur Zusammenarbeit entwickelt werden. Im Bereich der Datenanalyse kam es immer wieder zu weitreichenden Änderungen, und das wird auch in Zukunft der Fall sein. Daher sollte die beste Technologie die Umsetzung solcher Änderungen abnehmen. Es sollte Aufgabe des Anbieters sein, einfach anwendbare, leistungsstarke Abstraktionen zu entwickeln und zu warten. Die Tatsache, dass sich Big-Data-Technologien weiterentwickeln, sollte nicht Problem des Anwenders sein. Dies gilt auch für die unvermeidliche Gesundschrumpfung, die eintritt, wenn einige Varianten der Technologien sowie manche Anbieter vom Markt verschwinden. Da man sich mit der Entscheidung für eine Lösung in gewissem Umfang festlegt, ist eine Lösung zu bevorzugen, die auf einer höheren Abstraktionsstufe angesiedelt ist. Durch Wählen einer einfach anwendbaren Technologie können Qualifikationsengpässe vermieden werden. In vereinfachten Umgebungen können mehr Personen direkt mit den Daten interagieren, und das ermöglicht mehr Entdeckungen und selbst erstellte Lösungen. Ein entscheidender finanzieller Faktor bei der Wahl der richtigen Technologie ist das Lizenzmodell. Je nach Einsatzweise der Software und Verfügbarkeit interner Qualifikationen für unterstützende Software kann der Erwerb verschiedener Funktionen mit sehr unterschiedlichen Kosten verbunden sein. Es ist wichtig, die Vor- und Nachteile herkömmlicher Lizenzen sowie von Open-Source-Software und verschiedenen hybriden Angeboten zu verstehen. Die besten Systeme für die Big-Data-Integration sind für die Einbettung in andere Umgebungen ausgelegt. Die vereinfachten Formen der Transformation sollten auf Big-DataQuellen oder SQL-Repositorys anwendbar und in MapReduce oder Anwendungen nutzbar sein. Visualisierungen sollten in Webseiten, Anwendungen usw. angezeigt werden können. Ratgeber Integration von Big Data 7 CITO Research Advancing the craft of technology leadership Die Vorteile einer gelungenen Big-Data-Integration Daten werden erst dann wertvoll, wenn sie Menschen zugänglich gemacht werden, die sie auf die eine oder andere Weise nutzen können, oder wenn sie in einem von Menschen entwickelten automatisierten System verwendet werden können. Die Motivation für die Integration von Big Data besteht darin, den Zugriff auf Daten sowie das Verstehen und Verwenden von Daten so einfach wie möglich zu machen. Die Vorteile einer gelungenen Big-Data-Integration bestehen in dem Nutzen, der aus der Verwendung der Daten entsteht. Durch das Reduzieren von Verzögerungen, Eliminieren von Qualifikationsengpässen und Vereinfachen der Interaktion werden Organisationen in die Lage versetzt, sich schneller und effektiver zu bewegen. Durch den Erwerb von Komponenten und Systemen, die Teil einer kohärenten Vision sind, können Kosten reduziert werden, ohne Kompromisse hinsichtlich der erforderlichen Funktionen einzugehen. Die eingangs formulierten Fragen sollten jetzt leichter zu beantworten sein: Was sollte gekauft werden? So wenige Systeme wie möglich, wobei wichtig ist, dass sie die jetzt und in Zukunft benötigten Funktionen bieten, einfach anwendbar und zukunftssicher sind. Worin besteht das kohärente Ganze? Es besteht in der Vision einer Big-Data-Integration, die vorhandene Datenformen und -quellen in ein neues System integriert, das alle Phasen einer Datenlieferkette unterstützt. CITO Research CITO Research ist eine Quelle von Nachrichten, Analysen, Forschung und Wissen für CIOs, CTOs und andere IT- und Business-Experten. CITO Research steht mit seiner Zielgruppe im Dialog, um Technologietrends zu erfassen und mit modernsten Methoden auszuwerten, zu analysieren und zu kommunizieren, um Praktikern beim Lösen komplexer geschäftlicher Probleme zu helfen. Besuchen Sie uns unter http://www.citoresearch.com Dieser Ratgeber wurde von CITO Research erstellt und von Pentaho gesponsert.