Entwicklung einer optimierten Datenaufbereitung Eine Unternehmenslösung für die gesteuerte Verknüpfung und Bereitstellung verschiedener Datensets für die Analyse Copyright ©2015 Pentaho Corporation. Weitergabe erlaubt. Alle Marken sind Eigentum der jeweiligen Inhaber. Aktuelle informationen finden Sie auf unserer Website unter pentaho.de. Einführung In den letzten Jahren haben Datenmenge und Vielfalt enorm zugenommen, sodass es für Unternehmen schwierig war, Daten geschäftlich auszuschöpfen. Big Data gewinnbringend zu nutzen ist bereits eine erhebliche Herausforderung an sich, die noch zusätzlich durch neue Formen der gewünschten Datennutzung erschwert wird. Einfache Batch-Berichte reichen einfach nicht mehr aus – Nutzer wollen Analysen, die sie auf Abruf in ihrem bevorzugten Format untersuchen können, und dies meist im Kontext anderer, täglich verwendeter Softwareanwendungen. IT-Abteilungen können da nur mit Mühe mithalten. Neue Tools zur Datenvisualisierung haben zwar bestimmte Abteilungen zur „Selbsthilfe“ befähigt, erfüllen deren Anforderungen allerdings nur teilweise. Allenfalls haben Geschäftsanwender Zugriff uf Datenteilmengen, was sie vor ein Dilemma stellt: Sie vertrauen den Daten nicht, können aber auch nicht warten, bis diese Daten mit einem IT-Gütesiegel versehen worden sind. Im schlimmsten Fall können Anwender gar nicht erst auf die gewünschten Daten zum erforderlichen Zeitpunkt zugreifen – besonders dann, wenn sie „Big Data“ oder unstrukturierte Daten benötigen. In Anbetracht dieser Umstände können viele Unternehmen von einer Architektur zur optimierten Datenaufbereitung proftieren, da sie eine fexible, wirtschaftliche Möglichkeit darstellt, die Lieferung von Informationen an eine große Anzahl Anwender zwecks unterschiedlicher Analysezwecke zu verarbeiten und zu automatisieren. Eine optimierte Datenaufbereitung basiert auf einer On-Demand-Orchestrierung für die Verknüpfung von herkömmlichen Daten und Big Data und ist der erste Schritt in Richtung einer gesteuerten Datenbereitstellung (siehe unten). In diesem Artikel untersuchen wir die Anwendungsfälle, in denen eine optimierte Datenaufbereitung erheblichen Nutzen bringen kann, und gehen detailliert auf die einzelnen Komponenten der Lösungsarchitektur ein. Schritte Zur Optimierten Datenaufbereitung PENTAHO 2 in einem verwendungsbereiten Format (z.B. Excel oder Gesteuerte Datenbereitstellung wird als die Fähigkeit defniert, zuverlässig und zeitnah Daten zu verknüpfen und für die Analyse zur Verfügung zu stellen, ungeachtet von Datenquelle, Umgebung oder Anwenderrolle. Sie bildet die Grundlage für eine unternehmensweite nahtlose Untersuchung und Analyse validierter Datenverknüpfungen durch Endanwender. CSV) abgelegt werden. Zudem können Datensätze für eine Analyse-Datenbank wie HP Vertica bereitgestellt werden, was die Auslagerung komplexer Arbeitslasten aus Hadoop ermöglicht. GESTEUERTE BEREITSTELLUNG VON DATASETS AN PRÜFER UND REGULIERUNGSSTELLEN Unternehmen in stark regulierten Branchen wie im Finanzdienstleistungsbereich, Gesundheitswesen und Energiesektor stehen unter dem Druck, ihre Einhaltung von rechtlichen Bestimmungen nachweisen zu müssen. Aus diesem Grund müssen sie häufg Daten aus mehreren Quellen verknüpfen, Statistiken aufstellen und belegen, dass ihre Datenmanagementverfahren bestimmten Standards entsprechen. Beispielsweise verlangt der Dodd-Frank Act (US-amerikanisches Bundegesetz zur Finanzmarktstabilisierung) einen bestimmten Satz an Kapitalrücklagen für Bankholdinggesellschaften sowie Spar- und Darlehensunternehmen. Zur Beurteilung der Compliance sind für verschiedene Quellen Das Geschäftsproblem von Bankbetriebsdaten „Stresstests“ auszuführen, und die Ergebnisse dieser Tests müssen nachprüfbar sein. Anwendern müssen zunehmend größere Mengen unterschiedlicher Daten innerhalb immer engeren FORENSISCHE ANALYSEN NACH AUSSERGEWÖHNLI- Zeitfenstern bereitgestellt werden. Angesichts dieser CHEN GESCHÄFTSEREIGNISSEN Notwendigkeit haben wir die folgenden Anwendungs- Das Ausmaß von Big Data hindert Unternehmen oftmals fälle identifziert, in denen es auf die zeitnahe Lieferung daran, diese mithilfe herkömmlicher ETL-Prozesse im vollständig verwalteter und analysebereiter individueller Voraus in ein Data Warehouse zu integrieren. Unterne- Datenverknüpfungen ankommt. Folgend eine ofene Liste hmen verlassen sich zunehmen auf prognostische von Beispielen. Analysen, um Unregelmäßigkeiten (wie Finanzbetrug oder Bedrohungen der Netzwerksicherheit) zu prüfen ON-DEMAND-DATEN FÜR WIRTSCHAFTSANALYSTEN und Warnmeldungen zu generieren, mit denen eine UND FORSCHER detaillierte forensische Untersuchung durch Analysten In diesen Rollen fungierende Personen müssen oft veranlasst wird. Durch eine Automatisierung der Vor- auf fortschrittlichere Methoden als die herkömmli- bereitung von Analyse-Datasets für Endanwender kann chen SQL-basierten zurückgreifen, um Daten aus dieser Prozess optimiert und beschleunigt werden. einzelnen Datenbanken abzufragen. So benötigen Forscher vielfach umfassende Daten aus eher „schlecht „DATA BLENDING AS A SERVICE“ FÜR KUNDEN zugänglichen“ Quellen, wie Maschinen-/Sensordaten, UND PARTNER Weblog-Daten und unstrukturierten Texten, die meist Datenlösungen stellen eine neue Einnahmequelle für in Hadoop archiviert sind. Eine Lösung ist die einfache SaaS-Anbieter da, und viele traditionelle Unternehmen Bereitstellung individueller Datensätze auf Abruf, bei integrieren Analysen in ihre Kunden- und Partneran- der Big-Data-Sätze an einer praktischen Stelle (z.B. auf wendungen, um ihre Beziehungen zu Stakeholdern zu dem FTP-Server oder einem Kollaborationsportal) und fördern. Neben der Bereitstellung von Rohdaten-Feeds Schritte Zur Optimierten Datenaufbereitung PENTAHO 3 an Dritte können Unternehmen Data Blending (das Unter diesen Anwendungsfällen kristallisieren sich drei Verknüpfen verschiedener Datensets) als wertstei- allgemeine zentrale Anforderungen heraus, die neue gernden Service anbieten. In diesem Szenario laden Möglichkeiten bieten, die Steigerung von Produktivität Anwender Daten auf eine Site hoch, wo sie mit den und Geschäftswert für das jeweilige Unternehmen Daten der Host-Organisation kombiniert und dann voranzutreiben. Sie lauten folgendermaßen: als angereicherter Datensatz zurückgegeben werden. BEDARF FUNK TIONSBESCHREIBUNG VERBUNDENER WERT On-Demand- Anwender müssen in der Lage sein, kom- Dies sorgt für schnellere Ergebnisse bei Orchestrierung plexe Datensätze mühelos anzufordern, Analyseprojekten und vereinfacht den und die resultierenden Daten müssen Prozess für Endanwender, da die kom- zeitnah bereitgestellt werden. Die Verar- plexen Details der zugrunde liegenden beitung, das Blending und die Model- Systeme verborgen bleiben. Hierdurch lierung von Daten auf On-Demand-Basis kann das Unternehmen schnell auf geän- sind hierfür Voraussetzung. Um diese derte Bedingungen reagieren. Zudem On-Demand-Orchestrierung zu ermögli- spart die IT-Abteilung an Zeit, da viele chen, ist ein automatisierter Prozess zu Anforderungen mit einem automatisi- implementieren. erten Self-Service-Prozess für Endanwender verarbeitet werden können. Angemessene Um zuverlässige, kompatible, aktuelle Dies minimiert Risiken und gewährleistet, Datenverwaltung und ordnungsgemäß verknüpfte Daten zu dass alle auf Unternehmensdaten basie- erhalten, müssen diese analysebereiten renden Geschäftsentscheidungen mit Daten alle relevanten Data-Governance- Vertrauen getrofen werden können. Regeln erfüllen. Verknüpfte Daten Nutzer von Analysen benötigen Daten, Hierdurch können sie auf produktivere im gewünschten die aus mehreren Quellen verknüpft und Weise Einblicke aus Rohdaten gewinnen. Format angereichert sowie in einem verwertbaren Format bereitgestellt werden, ob in einem Tool zur Ad-hoc-Analyse oder in einem bestimmten Dateiformat und an einem bestimmten Speicherort. Die Lösung für optimierte Datenaufbereitung gelöste Datenanforderungen, die Verknüpfung und Aufbereitung beliebiger Daten, die automatische Generation von Analyseschemas sowie die Veröfentlichung Eine Architektur für optimierte Datenaufbereitung erfüllt alle zentralen Anforderungen der oben beschriebenen Anwendungsfälle und stellt einen anwendergesteuerten, zuverlässigen Prozess für die Datenlieferung bereit. Der Aufbau dieser Architektur umfasst im Wesentlichen einen On-Demand-Prozess für durch Anwender aus- von Analyse-Datensätzen in einem beliebigen Format. Er setzt sich aus mehreren wichtigen Komponenten zusammen. SK ALIERBARER DATENVER ARBEITUNGS -HUB Dieser Speicher (gewöhnlich Hadoop) dient zur Aufbewahrung und Verwaltung verschiedener strukturierter Schritte Zur Optimierten Datenaufbereitung PENTAHO 4 und unstrukturierter Daten aus dem gesamten Unterne- Blending und Orchestrierung: In PDI werden Daten hmen. Im Diagramm fungiert Hadoop als Landezone für aus praktisch jeder Datenquelle eingespeist, darunter Daten aus dem Internet, sozialen Medien, Transaktions- auch herkömmliche Systeme und Big-Data-Speicher. systemen und von Maschinen/Sensoren. Anschließend werden die Daten verarbeitet, bereinigt und in den erforderlichen Verknüpfungen zu Analysezwecken verbunden. LEISTUNGSSTARKE DATENBANK Die gewählte Datenbank muss leistungsstarke Abfragen für die Analyse und Visualisierung unterstützen. Wenn Automatische Modellierung und Veröffntlichung: Als Skalierbarkeit ein Faktor ist, dann stellt eine Analyse- Teil des Datenorchestrierungsprozesses erstellt PDI Datenbank wie HP Vertica eine solide Wahl dar. automatisch ein OLAP-Schema und veröfentlicht es auf dem Pentaho Business Analytics-Server, das Endan- PENTAHO DATA INTEGR ATION wender dann zur Untersuchung und Visualisierung Pentahos hoch skalierbare Datenintegrations-Engine, die heranziehen können. über die intuitive Anwenderoberfäche verwaltet wird, bringt die unterschiedlichen Datenquellen und Datens- Data Governance: Aufgrund der robusten Funktionalität peicher in dieser Architektur zusammen. Der gesamte, von PDI kann die IT-Abteilung schnell und einfach an der hier umrissene Prozess kann auf On-Demand-Basis über Quelle kombinierte Daten validieren. Dies sorgt für das PDI ausgelöst werden: angemessene Maß an Kontrolle, ohne dass jedoch der Zugriff urch Endanwender unnötig behindert wird. Diagramm für optimierte Datenaufbereitung Self-Service-Datenanforderung, vorbereitete On-Demand-Daten Ort, E-Mail, sonstigeDaten Pentaho Analyzer Web Pentaho Data Integration Pentaho Data Integration SozialeMedien Sensordaten HadoopCluster Transaktionen – Batch & Echtzeit Interne Daten Schritte Zur Optimierten Datenaufbereitung PENTAHO 5 AnalyseDatenbank Pentaho Reports INTUITIVES BLENDING sowie Amazon RedShift als leistungsstarke Analyse- Datenentwickler nutzen Pentaho Data Integration zur Datenbank in der Cloud. Schafung eines Data-Blending-Prozesses, den Anwender zur Laufzeit ausführen können. Diese Partnerschaft zwischen der IT-Abteilung und dem Unternehmen sorgt für verwaltetes On-Demand-Data-Blending mittels SelfService-Datenanforderung. Vorteile der optimierten Datenaufbereitung Neben der Bereitstellung von beispiellosem Zugriff uf verschiedene, gesteuerte Daten für On-Demand- SELF-SERVICE-DATENANFORDERUNG Anwender können über eine webbasierte Schnittstelle, die mit dem CTools-Framework für eine zu 100 % individualisierte Analyse-Anwendernutzungserfahrung erstellt wurde, die On-Demand-Lieferung analysebe- Analysen bietet Pentahos Lösungsarchitektur für die optimierte Datenaufbereitung eine Reihe von weiteren Vorteilen. DATENSÄTZE WERDEN „VIRTUALISIERT“ UND ÜBER reiter Daten anfordern. Über eine Onlineschnittstelle können Anwender schnell und einfach Parameter (d. h. Datenfelder, Quellsysteme, Zeiträume usw.) eingeben. Außerdem können sie wählen, ob Daten als verwaltete Datenquelle in Pentaho Business Analytics oder in einem anderen Format (Excel, CSV usw.) an einem anderen LOGISCHE SERVICE-ENDPUNK TE VERWALTET Das bedeutet, dass Anwendern die Anwendungsimplementierung verborgen bleibt, sodass die IT-Abteilung die zugrunde liegende Dateninfrastruktur verbessern oder auf eine andere Plattform verlagern kann, ohne die Branchenanwender in ihrer Arbeit zu behindern. Zielort gespeichert werden. ZENTR ALE SICHERHEITSSTEUERUNG PENTAHO BUSINESS ANALY TICS Pentaho Business Analytics – im Diagramm durch Pentaho Analyzer und Pentaho Reports dargestellt – ist ein fexibles Toolset für die Untersuchung, Visualisierung und Nutzung von Daten. Anwender nutzen Pentaho hier, um Zugriff uf die automatisch generierten Datenmodelle für die interaktive Analyse zu erhalten. Alle Anforderungen werden über eine gemeinsame Anwendung (die Pentaho-Benutzerkonsole) vorgenommen. Durch die Deaktivierung eines Anwenderkontos oder den Widerruf einer Rollenmitgliedschaft lässt sich also der Zugriff enes Anwenders mühelos sperren. Ferner kann der gesteuerte Zugriff on Pentaho so konfguriert werden, dass er den vorhandenen Sicherheitsschemas des Unternehmens entspricht. Kundenbeispiel: Finanzregulierungsstelle SPEICHER, DATENTR ANSFORMATION UND ABFR AGEVER ARBEITUNG (SQL UND OL AP) MITHILFE ZIEL VON PRODUK TEN IMPLEMENTIERBAR, DIE DER Analysten sollen in der Lage sein, unter Milliarden von VORHANDENEN KOMPETENZ UND INFR ASTRUK TUR Markttransaktionen pro Tag verdächtige Muster zu ENTSPRECHEN identifzieren. PDI-Jobs und Transformationen sind fexibel, sodass IT-Entwickler Arbeitslasten in Hadoop (MapReduce oder DIE LÖSUNG VON PENTAHO YARN), in dedizierten PDI-Clustern oder auf einzelnen nwender untersuchen Übersichtsdaten und haben die PDI-Servern ausführen können. Ebenso ist Pentahos Möglichkeit, unmittelbar detaillierte Datensätze anzu- OLAP-Engine (Mondrian) mit zahlreichen Analyse-Daten- fordern und über mehrdimensionale Modelle einen banken kompatibel. Überdies lässt sich die Infrastruktur Drilldown durchzuführen. zur Nutzung neuer Speicher- und Verarbeitungsoptionen erweitern, ohne dass die Verfügbarkeit logischer Ser- ARCHITEK TUR vice-Endpunkte beeinträchtigt wird. Pentahos adaptive Nutzt Hadoop mit Amazon Elastic MapReduce und Hive Big Data-Ebene erleichtert diese „Zukunftssicherung“. Schritte Zur Optimierten Datenaufbereitung PENTAHO 6 RÜCKSTAU FÜR INDIVIDUELLE DATENFEED-ANFORDERUNGEN WIRD REDUZIERT Schlussfolgerung Durch die Implementierung von parametrisierten Anfor- Im Rahmen dieser Diskussion haben wir drei zentrale derungsformularen als Teil einer optimierten Datenauf- Anforderungen hinsichtlich der Datenlieferung her- bereitung können IT-Abteilungen die Auswahl und Fil- vorgehoben, auf die derzeit auf dem Markt nur begrenzt terung von Rohdaten an Analysten und Mitarbeiter, die eingegangen wird: Recherchen ausführen, auslagern. Dies entspricht direkt •Orchestrierung von On-Demand-Verarbeitung, der interaktiven Self-Service-Berichterstellung, außer dass Daten mit einer beliebigen Anzahl an unternehmen- Verknüpfung und Modellierung von durch Anwender süblichen Berichterstellungs-, Analyse- und Statistiktools angeforderten Datensätzen zur Beschleunigung der verwendet werden können. Wertschöpfung bei komplexen Analyseinitiativen. •Sicherstellung von ordnungsgemäßer Data Gover- Der anwendergesteuerte, verwaltete Prozess der optimierten Datenaufbereitung nance während des Bereitstellungsprozesses, sodass Risiken minimiert und das Vertrauen bei daten- Von Anwendern ausgelöste Datenanforderung Verknüpfen und Aufbereiten beliebiger Daten basierten Entscheidungen erhöht wird. •Bereitstellung von verknüpften und angereicherten Daten in einem vom Anwender gewählten Format, sodass Geschäftsanwender auf produktivere Weise Erkenntnisse aus unterschiedlichen Daten gewinnen Anfordern Aufbereiten können. In der Tat erstrecken sich diese Herausforderungen über diverse, branchenspezifsche Anwendungsfälle, die hier erörtert wurden. Dazu zählen die gründliche Untersuchung durch Forscher, die forensische Analyse von unerwarteten Ereignissen, die Gewährleistung von Compliance in regulierten Branchen sowie die Bereitstel- Veröffentliche lung von Daten „als Service“ an Kunden und Partner. Die optimierte Datenaufbereitung bietet eine gut defnierte Lösungsarchitektur, mit der auf diese Anforder- Analyse-Datensätze veröfentlichen Datenmodell automatisch generieren ungen eingegangen werden kann. Hierbei werden nicht nur die im Unternehmen vorhandenen Kompetenzen genutzt, sondern es wird auch sichergestellt, dass die On-Demand-Lieferprozesse schnell an Änderungen in der Datenumgebung angepasst werden können. Schritte Zur Optimierten Datenaufbereitung PENTAHO 7 Erfahren Sie mehr über Pentaho Business Analytics pentaho.com/contact Global Headquarters Citadel International - Suite 340 5950 Hazeltine National Dr. Orlando, FL 32822, USA tel +1 407 812 6736 fax +1 407 517 4575 Vertrieb (USA und Weltweit) 353 Sacramento Street, Suite 1500 San Francisco, CA 94111, USA tel +1 415 525 5540 Gebührenfrei +1 866 660 7555 Vereinigtes Königreich, Übriges Europa, Naher Osten, Afrika London, Großbritannien tel +44 7711 104854 Gebührenfrei (UK) 0 800 680 0693 FRANKREICH Niederlassung - Paris, Frankreich tel +33 97 51 82 296 Gebührenfrei (Frankreich) 0800 915343 DEUTSCHLAND, ÖSTERREICH, SCHWEIZ Niederlassung - Frankfurt, Deutschland tel +49(0)89 / 37 41 40 81 Gebührenfrei (Deutschland) 0800 186 0332 BELGIEN, NIEDERLANDE, LUXEMBURG Niederlassung - Antwerpen, Belgien tel +31 6 52 69 88 01 Gebührenfrei (Belgien) 0800 773 83 Be social with Pentaho: Copyright ©2015 Pentaho Corporation. Weitergabe erlaubt. Alle Marken sind Eigentum der jeweiligen Inhaber. Aktuelle informationen finden Sie auf unserer Website unter pentaho.de.