Entwicklung einer optimierten Datenaufbereitung

Entwicklung einer
optimierten
Datenaufbereitung
Eine Unternehmenslösung für die
gesteuerte Verknüpfung und Bereitstellung
verschiedener Datensets für die Analyse
Copyright ©2015 Pentaho Corporation. Weitergabe erlaubt. Alle Marken sind Eigentum der jeweiligen Inhaber.
Aktuelle informationen finden Sie auf unserer Website unter pentaho.de.
Einführung
In den letzten Jahren haben Datenmenge und Vielfalt enorm zugenommen, sodass
es für Unternehmen schwierig war, Daten geschäftlich auszuschöpfen. Big Data
gewinnbringend zu nutzen ist bereits eine erhebliche Herausforderung an sich, die
noch zusätzlich durch neue Formen der gewünschten Datennutzung erschwert wird.
Einfache Batch-Berichte reichen einfach nicht mehr aus – Nutzer wollen Analysen, die
sie auf Abruf in ihrem bevorzugten Format untersuchen können, und dies meist im
Kontext anderer, täglich verwendeter Softwareanwendungen.
IT-Abteilungen können da nur mit Mühe mithalten. Neue Tools zur Datenvisualisierung
haben zwar bestimmte Abteilungen zur „Selbsthilfe“ befähigt, erfüllen deren
Anforderungen allerdings nur teilweise. Allenfalls haben Geschäftsanwender Zugriff uf
Datenteilmengen, was sie vor ein Dilemma stellt: Sie vertrauen den Daten nicht, können
aber auch nicht warten, bis diese Daten mit einem IT-Gütesiegel versehen worden
sind. Im schlimmsten Fall können Anwender gar nicht erst auf die gewünschten Daten
zum erforderlichen Zeitpunkt zugreifen – besonders dann, wenn sie „Big Data“ oder
unstrukturierte Daten benötigen.
In Anbetracht dieser Umstände können viele Unternehmen von einer Architektur
zur optimierten Datenaufbereitung proftieren, da sie eine fexible, wirtschaftliche
Möglichkeit darstellt, die Lieferung von Informationen an eine große Anzahl Anwender
zwecks unterschiedlicher Analysezwecke zu verarbeiten und zu automatisieren. Eine
optimierte Datenaufbereitung basiert auf einer On-Demand-Orchestrierung für die
Verknüpfung von herkömmlichen Daten und Big Data und ist der erste Schritt in
Richtung einer gesteuerten Datenbereitstellung (siehe unten). In diesem Artikel
untersuchen wir die Anwendungsfälle, in denen eine optimierte Datenaufbereitung
erheblichen Nutzen bringen kann, und gehen detailliert auf die einzelnen Komponenten
der Lösungsarchitektur ein.
Schritte Zur Optimierten Datenaufbereitung
PENTAHO 2
in einem verwendungsbereiten Format (z.B. Excel oder
Gesteuerte Datenbereitstellung
wird als die Fähigkeit defniert,
zuverlässig und zeitnah Daten
zu verknüpfen und für die
Analyse zur Verfügung zu stellen,
ungeachtet von Datenquelle,
Umgebung oder Anwenderrolle.
Sie bildet die Grundlage für eine
unternehmensweite nahtlose
Untersuchung und Analyse
validierter Datenverknüpfungen
durch Endanwender.
CSV) abgelegt werden. Zudem können Datensätze für
eine Analyse-Datenbank wie HP Vertica bereitgestellt
werden, was die Auslagerung komplexer Arbeitslasten
aus Hadoop ermöglicht.
GESTEUERTE BEREITSTELLUNG VON DATASETS AN
PRÜFER UND REGULIERUNGSSTELLEN
Unternehmen in stark regulierten Branchen wie im
Finanzdienstleistungsbereich, Gesundheitswesen und
Energiesektor stehen unter dem Druck, ihre Einhaltung
von rechtlichen Bestimmungen nachweisen zu müssen.
Aus diesem Grund müssen sie häufg Daten aus mehreren Quellen verknüpfen, Statistiken aufstellen und
belegen, dass ihre Datenmanagementverfahren bestimmten Standards entsprechen. Beispielsweise verlangt
der Dodd-Frank Act (US-amerikanisches Bundegesetz
zur Finanzmarktstabilisierung) einen bestimmten Satz
an Kapitalrücklagen für Bankholdinggesellschaften
sowie Spar- und Darlehensunternehmen. Zur Beurteilung der Compliance sind für verschiedene Quellen
Das Geschäftsproblem
von Bankbetriebsdaten „Stresstests“ auszuführen, und
die Ergebnisse dieser Tests müssen nachprüfbar sein.
Anwendern müssen zunehmend größere Mengen
unterschiedlicher Daten innerhalb immer engeren
FORENSISCHE ANALYSEN NACH AUSSERGEWÖHNLI-
Zeitfenstern bereitgestellt werden. Angesichts dieser
CHEN GESCHÄFTSEREIGNISSEN
Notwendigkeit haben wir die folgenden Anwendungs-
Das Ausmaß von Big Data hindert Unternehmen oftmals
fälle identifziert, in denen es auf die zeitnahe Lieferung
daran, diese mithilfe herkömmlicher ETL-Prozesse im
vollständig verwalteter und analysebereiter individueller
Voraus in ein Data Warehouse zu integrieren. Unterne-
Datenverknüpfungen ankommt. Folgend eine ofene Liste
hmen verlassen sich zunehmen auf prognostische
von Beispielen.
Analysen, um Unregelmäßigkeiten (wie Finanzbetrug
oder Bedrohungen der Netzwerksicherheit) zu prüfen
ON-DEMAND-DATEN FÜR WIRTSCHAFTSANALYSTEN
und Warnmeldungen zu generieren, mit denen eine
UND FORSCHER
detaillierte forensische Untersuchung durch Analysten
In diesen Rollen fungierende Personen müssen oft
veranlasst wird. Durch eine Automatisierung der Vor-
auf fortschrittlichere Methoden als die herkömmli-
bereitung von Analyse-Datasets für Endanwender kann
chen SQL-basierten zurückgreifen, um Daten aus
dieser Prozess optimiert und beschleunigt werden.
einzelnen Datenbanken abzufragen. So benötigen
Forscher vielfach umfassende Daten aus eher „schlecht
„DATA BLENDING AS A SERVICE“ FÜR KUNDEN
zugänglichen“ Quellen, wie Maschinen-/Sensordaten,
UND PARTNER
Weblog-Daten und unstrukturierten Texten, die meist
Datenlösungen stellen eine neue Einnahmequelle für
in Hadoop archiviert sind. Eine Lösung ist die einfache
SaaS-Anbieter da, und viele traditionelle Unternehmen
Bereitstellung individueller Datensätze auf Abruf, bei
integrieren Analysen in ihre Kunden- und Partneran-
der Big-Data-Sätze an einer praktischen Stelle (z.B. auf
wendungen, um ihre Beziehungen zu Stakeholdern zu
dem FTP-Server oder einem Kollaborationsportal) und
fördern. Neben der Bereitstellung von Rohdaten-Feeds
Schritte Zur Optimierten Datenaufbereitung
PENTAHO 3
an Dritte können Unternehmen Data Blending (das
Unter diesen Anwendungsfällen kristallisieren sich drei
Verknüpfen verschiedener Datensets) als wertstei-
allgemeine zentrale Anforderungen heraus, die neue
gernden Service anbieten. In diesem Szenario laden
Möglichkeiten bieten, die Steigerung von Produktivität
Anwender Daten auf eine Site hoch, wo sie mit den
und Geschäftswert für das jeweilige Unternehmen
Daten der Host-Organisation kombiniert und dann
voranzutreiben. Sie lauten folgendermaßen:
als angereicherter Datensatz zurückgegeben werden.
BEDARF
FUNK TIONSBESCHREIBUNG
VERBUNDENER WERT
On-Demand-
Anwender müssen in der Lage sein, kom-
Dies sorgt für schnellere Ergebnisse bei
Orchestrierung
plexe Datensätze mühelos anzufordern,
Analyseprojekten und vereinfacht den
und die resultierenden Daten müssen
Prozess für Endanwender, da die kom-
zeitnah bereitgestellt werden. Die Verar-
plexen Details der zugrunde liegenden
beitung, das Blending und die Model-
Systeme verborgen bleiben. Hierdurch
lierung von Daten auf On-Demand-Basis
kann das Unternehmen schnell auf geän-
sind hierfür Voraussetzung. Um diese
derte Bedingungen reagieren. Zudem
On-Demand-Orchestrierung zu ermögli-
spart die IT-Abteilung an Zeit, da viele
chen, ist ein automatisierter Prozess zu
Anforderungen mit einem automatisi-
implementieren.
erten Self-Service-Prozess für Endanwender verarbeitet werden können.
Angemessene
Um zuverlässige, kompatible, aktuelle
Dies minimiert Risiken und gewährleistet,
Datenverwaltung
und ordnungsgemäß verknüpfte Daten zu
dass alle auf Unternehmensdaten basie-
erhalten, müssen diese analysebereiten
renden Geschäftsentscheidungen mit
Daten alle relevanten Data-Governance-
Vertrauen getrofen werden können.
Regeln erfüllen.
Verknüpfte Daten
Nutzer von Analysen benötigen Daten,
Hierdurch können sie auf produktivere
im gewünschten
die aus mehreren Quellen verknüpft und
Weise Einblicke aus Rohdaten gewinnen.
Format
angereichert sowie in einem verwertbaren
Format bereitgestellt werden, ob in einem
Tool zur Ad-hoc-Analyse oder in einem
bestimmten Dateiformat und an einem
bestimmten Speicherort.
Die Lösung für optimierte
Datenaufbereitung
gelöste Datenanforderungen, die Verknüpfung und
Aufbereitung beliebiger Daten, die automatische Generation von Analyseschemas sowie die Veröfentlichung
Eine Architektur für optimierte Datenaufbereitung erfüllt
alle zentralen Anforderungen der oben beschriebenen
Anwendungsfälle und stellt einen anwendergesteuerten,
zuverlässigen Prozess für die Datenlieferung bereit. Der
Aufbau dieser Architektur umfasst im Wesentlichen
einen On-Demand-Prozess für durch Anwender aus-
von Analyse-Datensätzen in einem beliebigen Format.
Er setzt sich aus mehreren wichtigen Komponenten
zusammen.
SK ALIERBARER DATENVER ARBEITUNGS -HUB
Dieser Speicher (gewöhnlich Hadoop) dient zur Aufbewahrung und Verwaltung verschiedener strukturierter
Schritte Zur Optimierten Datenaufbereitung
PENTAHO 4
und unstrukturierter Daten aus dem gesamten Unterne-
Blending und Orchestrierung: In PDI werden Daten
hmen. Im Diagramm fungiert Hadoop als Landezone für
aus praktisch jeder Datenquelle eingespeist, darunter
Daten aus dem Internet, sozialen Medien, Transaktions-
auch herkömmliche Systeme und Big-Data-Speicher.
systemen und von Maschinen/Sensoren.
Anschließend werden die Daten verarbeitet, bereinigt
und in den erforderlichen Verknüpfungen zu Analysezwecken verbunden.
LEISTUNGSSTARKE DATENBANK
Die gewählte Datenbank muss leistungsstarke Abfragen
für die Analyse und Visualisierung unterstützen. Wenn
Automatische Modellierung und Veröffntlichung: Als
Skalierbarkeit ein Faktor ist, dann stellt eine Analyse-
Teil des Datenorchestrierungsprozesses erstellt PDI
Datenbank wie HP Vertica eine solide Wahl dar.
automatisch ein OLAP-Schema und veröfentlicht es auf
dem Pentaho Business Analytics-Server, das Endan-
PENTAHO DATA INTEGR ATION
wender dann zur Untersuchung und Visualisierung
Pentahos hoch skalierbare Datenintegrations-Engine, die
heranziehen können.
über die intuitive Anwenderoberfäche verwaltet wird,
bringt die unterschiedlichen Datenquellen und Datens-
Data Governance: Aufgrund der robusten Funktionalität
peicher in dieser Architektur zusammen. Der gesamte,
von PDI kann die IT-Abteilung schnell und einfach an der
hier umrissene Prozess kann auf On-Demand-Basis über
Quelle kombinierte Daten validieren. Dies sorgt für das
PDI ausgelöst werden:
angemessene Maß an Kontrolle, ohne dass jedoch der
Zugriff urch Endanwender unnötig behindert wird.
Diagramm für optimierte Datenaufbereitung
Self-Service-Datenanforderung,
vorbereitete On-Demand-Daten
Ort, E-Mail,
sonstigeDaten
Pentaho
Analyzer
Web
Pentaho
Data
Integration
Pentaho
Data
Integration
SozialeMedien
Sensordaten
HadoopCluster
Transaktionen –
Batch & Echtzeit
Interne Daten
Schritte Zur Optimierten Datenaufbereitung
PENTAHO 5
AnalyseDatenbank
Pentaho
Reports
INTUITIVES BLENDING
sowie Amazon RedShift als leistungsstarke Analyse-
Datenentwickler nutzen Pentaho Data Integration zur
Datenbank in der Cloud.
Schafung eines Data-Blending-Prozesses, den Anwender
zur Laufzeit ausführen können. Diese Partnerschaft
zwischen der IT-Abteilung und dem Unternehmen sorgt
für verwaltetes On-Demand-Data-Blending mittels SelfService-Datenanforderung.
Vorteile der optimierten
Datenaufbereitung
Neben der Bereitstellung von beispiellosem Zugriff
uf verschiedene, gesteuerte Daten für On-Demand-
SELF-SERVICE-DATENANFORDERUNG
Anwender können über eine webbasierte Schnittstelle,
die mit dem CTools-Framework für eine zu 100 %
individualisierte Analyse-Anwendernutzungserfahrung
erstellt wurde, die On-Demand-Lieferung analysebe-
Analysen bietet Pentahos Lösungsarchitektur für die
optimierte Datenaufbereitung eine Reihe von weiteren
Vorteilen.
DATENSÄTZE WERDEN „VIRTUALISIERT“ UND ÜBER
reiter Daten anfordern. Über eine Onlineschnittstelle
können Anwender schnell und einfach Parameter (d. h.
Datenfelder, Quellsysteme, Zeiträume usw.) eingeben.
Außerdem können sie wählen, ob Daten als verwaltete
Datenquelle in Pentaho Business Analytics oder in einem
anderen Format (Excel, CSV usw.) an einem anderen
LOGISCHE SERVICE-ENDPUNK TE VERWALTET
Das bedeutet, dass Anwendern die Anwendungsimplementierung verborgen bleibt, sodass die IT-Abteilung
die zugrunde liegende Dateninfrastruktur verbessern
oder auf eine andere Plattform verlagern kann, ohne die
Branchenanwender in ihrer Arbeit zu behindern.
Zielort gespeichert werden.
ZENTR ALE SICHERHEITSSTEUERUNG
PENTAHO BUSINESS ANALY TICS
Pentaho Business Analytics – im Diagramm durch Pentaho Analyzer und Pentaho Reports dargestellt – ist ein
fexibles Toolset für die Untersuchung, Visualisierung und
Nutzung von Daten. Anwender nutzen Pentaho hier, um
Zugriff uf die automatisch generierten Datenmodelle für
die interaktive Analyse zu erhalten.
Alle Anforderungen werden über eine gemeinsame
Anwendung (die Pentaho-Benutzerkonsole) vorgenommen. Durch die Deaktivierung eines Anwenderkontos
oder den Widerruf einer Rollenmitgliedschaft lässt sich
also der Zugriff enes Anwenders mühelos sperren.
Ferner kann der gesteuerte Zugriff on Pentaho so konfguriert werden, dass er den vorhandenen Sicherheitsschemas des Unternehmens entspricht.
Kundenbeispiel:
Finanzregulierungsstelle
SPEICHER, DATENTR ANSFORMATION UND
ABFR AGEVER ARBEITUNG (SQL UND OL AP) MITHILFE
ZIEL
VON PRODUK TEN IMPLEMENTIERBAR, DIE DER
Analysten sollen in der Lage sein, unter Milliarden von
VORHANDENEN KOMPETENZ UND INFR ASTRUK TUR
Markttransaktionen pro Tag verdächtige Muster zu
ENTSPRECHEN
identifzieren.
PDI-Jobs und Transformationen sind fexibel, sodass
IT-Entwickler Arbeitslasten in Hadoop (MapReduce oder
DIE LÖSUNG VON PENTAHO
YARN), in dedizierten PDI-Clustern oder auf einzelnen
nwender untersuchen Übersichtsdaten und haben die
PDI-Servern ausführen können. Ebenso ist Pentahos
Möglichkeit, unmittelbar detaillierte Datensätze anzu-
OLAP-Engine (Mondrian) mit zahlreichen Analyse-Daten-
fordern und über mehrdimensionale Modelle einen
banken kompatibel. Überdies lässt sich die Infrastruktur
Drilldown durchzuführen.
zur Nutzung neuer Speicher- und Verarbeitungsoptionen
erweitern, ohne dass die Verfügbarkeit logischer Ser-
ARCHITEK TUR
vice-Endpunkte beeinträchtigt wird. Pentahos adaptive
Nutzt Hadoop mit Amazon Elastic MapReduce und Hive
Big Data-Ebene erleichtert diese „Zukunftssicherung“.
Schritte Zur Optimierten Datenaufbereitung
PENTAHO 6
RÜCKSTAU FÜR INDIVIDUELLE DATENFEED-ANFORDERUNGEN WIRD REDUZIERT
Schlussfolgerung
Durch die Implementierung von parametrisierten Anfor-
Im Rahmen dieser Diskussion haben wir drei zentrale
derungsformularen als Teil einer optimierten Datenauf-
Anforderungen hinsichtlich der Datenlieferung her-
bereitung können IT-Abteilungen die Auswahl und Fil-
vorgehoben, auf die derzeit auf dem Markt nur begrenzt
terung von Rohdaten an Analysten und Mitarbeiter, die
eingegangen wird:
Recherchen ausführen, auslagern. Dies entspricht direkt
•Orchestrierung von On-Demand-Verarbeitung,
der interaktiven Self-Service-Berichterstellung, außer
dass Daten mit einer beliebigen Anzahl an unternehmen-
Verknüpfung und Modellierung von durch Anwender
süblichen Berichterstellungs-, Analyse- und Statistiktools
angeforderten Datensätzen zur Beschleunigung der
verwendet werden können.
Wertschöpfung bei komplexen Analyseinitiativen.
•Sicherstellung von ordnungsgemäßer Data Gover-
Der anwendergesteuerte, verwaltete Prozess
der optimierten Datenaufbereitung
nance während des Bereitstellungsprozesses, sodass
Risiken minimiert und das Vertrauen bei daten-
Von Anwendern ausgelöste
Datenanforderung
Verknüpfen und Aufbereiten
beliebiger Daten
basierten Entscheidungen erhöht wird.
•Bereitstellung von verknüpften und angereicherten
Daten in einem vom Anwender gewählten Format,
sodass Geschäftsanwender auf produktivere Weise
Erkenntnisse aus unterschiedlichen Daten gewinnen
Anfordern
Aufbereiten
können.
In der Tat erstrecken sich diese Herausforderungen
über diverse, branchenspezifsche Anwendungsfälle,
die hier erörtert wurden. Dazu zählen die gründliche
Untersuchung durch Forscher, die forensische Analyse
von unerwarteten Ereignissen, die Gewährleistung von
Compliance in regulierten Branchen sowie die Bereitstel-
Veröffentliche
lung von Daten „als Service“ an Kunden und Partner.
Die optimierte Datenaufbereitung bietet eine gut defnierte Lösungsarchitektur, mit der auf diese Anforder-
Analyse-Datensätze
veröfentlichen
Datenmodell automatisch
generieren
ungen eingegangen werden kann. Hierbei werden nicht
nur die im Unternehmen vorhandenen Kompetenzen
genutzt, sondern es wird auch sichergestellt, dass die
On-Demand-Lieferprozesse schnell an Änderungen in
der Datenumgebung angepasst werden können.
Schritte Zur Optimierten Datenaufbereitung
PENTAHO 7
Erfahren Sie mehr über
Pentaho Business Analytics
pentaho.com/contact
Global Headquarters
Citadel International - Suite 340
5950 Hazeltine National Dr.
Orlando, FL 32822, USA
tel +1 407 812 6736
fax +1 407 517 4575
Vertrieb (USA und Weltweit)
353 Sacramento Street, Suite 1500
San Francisco, CA 94111, USA
tel +1 415 525 5540
Gebührenfrei +1 866 660 7555
Vereinigtes Königreich, Übriges
Europa, Naher Osten, Afrika
London, Großbritannien
tel +44 7711 104854
Gebührenfrei (UK) 0 800 680 0693
FRANKREICH
Niederlassung - Paris, Frankreich
tel +33 97 51 82 296
Gebührenfrei (Frankreich) 0800 915343
DEUTSCHLAND, ÖSTERREICH, SCHWEIZ
Niederlassung - Frankfurt, Deutschland
tel +49(0)89 / 37 41 40 81
Gebührenfrei (Deutschland) 0800 186 0332
BELGIEN, NIEDERLANDE, LUXEMBURG
Niederlassung - Antwerpen, Belgien
tel +31 6 52 69 88 01
Gebührenfrei (Belgien) 0800 773 83
Be social
with Pentaho:
Copyright ©2015 Pentaho Corporation. Weitergabe erlaubt.
Alle Marken sind Eigentum der jeweiligen Inhaber.
Aktuelle informationen finden Sie auf unserer Website unter pentaho.de.