Whitepaper - datenfabrik.com

Werbung
Data Profiling und Monitoring
mit Microsoft SQL Server
Integration Services
www.datenfabrik.com
Inhalt
Kontinuierliches Data Profiling und Monitoring mit Microsoft SSIS ...................... 3
Auswirkungen schlechter Datenqualität ............................................................. 4
Analyse der Datenqualität im historischen Verlauf .............................................. 6
Zentrales Repository für die unternehmensweite Analyse ................................... 7
Durchgehende Überwachung der Daten in allen Quellsystemen ......................... 8
Datenqualitätsanalysen für verschiedene Quellsysteme ....................................... 9
Die wichtigsten Funktionen auf einen Blick ...................................................... 10
2
www.datenfabrik.com
Kontinuierliches Data Profiling und Monitoring mit
Microsoft SQL Server Integration Services
Der datenfabrik.profiler ermöglicht eine schnelle und einfache Analyse des
Inhalts, der Struktur und der Qualität von Daten aus unterschiedlichsten
Datenquellen innerhalb der Microsoft SQL Server Integration Services und
erlaubt so eine effektive Gestaltung von Datenintegrationsprozessen.
Mit den vielfältigen und leistungsstarken Data Profiling-Optionen des datenfabrik.profiler werden Business Intelligence-Entwickler, Database-Manager
und Data-Stewards in die Lage versetzt, sich ein einheitliches Bild der Quelldaten zu verschaffen, frühzeitig Fehler und Ausreißer zu erkennen und eigene
Business-Regeln zu erstellen.
Der datenfabrik.profiler liefert für die Analyse historische Informationen und
ermöglicht über ein durchgehendes Monitoring auch nach Abschluss der
Überprüfung eine Überwachung der aus der Analyse abgeleiteten BusinessRegeln. Durch den Einsatz des datenfabrik.profiler können somit Projektkosten gesenkt und die Entwicklungszeit von Projekten verringert werden. Die
Datenqualität, einer der wesentlichsten Aspekte in den Projekten, wird im
Zuge der Überprüfung nie aus den Augen verloren und kann auf diese Weise
entscheidend verbessert werden.
3
www.datenfabrik.com
Auswirkungen schlechter Datenqualität
Den Inhalt, die Strukturen und vor allem die Qualität von Quelldaten zu verstehen, zählt zu einem der wichtigsten Erfolgsfaktoren für Datenintegrationsund Datenqualitätsprojekte.
Es existieren zahlreiche Situationen, in denen Daten aus unterschiedlichen
Systemen in ein anderes System integriert oder zusammengeführt werden: Zu
ihnen zählen etwa Firmenübernahmen, der Erwerb einer neuen ERP-Lösung,
die Zusammenarbeit mit externen Dienstleistern oder der Aufbau einer Data
Warehouse-Lösung. Alle diese Szenarien können sich jedoch negativ auf die
Qualität der Daten auswirken, wenn diese ohne weitere Maßnahmen, Überlegungen und Regeln verarbeitet werden. Auf der Metaebene, also innerhalb
der Datenbeschreibung des Datenmodells, können gravierende Unterschiede
bestehen, in denen z.B. Datenfelder und -beschreibungen nicht mehr aktuell
sind, Datentypen zwischen Systemen Unterschiede aufweisen oder Feldbenennungen unterschiedliche Bedeutungen besitzen. Aber auch die Daten
selbst können unterschiedlichste Strukturen aufweisen, die über das Datenmodell nicht beschrieben werden können. Die aus diesen Unterschieden
resultierenden Fehler können manchmal auch erst in nachgelagerten
Prozessen in Erscheinung treten. So können z.B. feste Regeln für den Aufbau
von Telefonnummern für eine CTI-Anwendung bestehen oder den Artikelbezeichnungen eine definierte Syntax für die Katalogproduktion und den
Online-Shop zugrunde liegen.
Die Auswirkungen einer schlechten Datenqualität zeichnen sich dabei häufig
erst innerhalb von Projekten oder in Folgeprozessen ab. So haben Studien,
welche die direkten Auswirkungen mangelnder Datenqualität untersuchten,
ergeben, dass ca. 75% aller Datenintegrationsprojekte nicht den Plandaten
entsprechen oder sogar gänzlich fehlschlagen.
Zurückzuführen ist dies in den meisten Fällen auf eine schlechte Datenqualität
und darauf, dass vor Projektbeginn keine detaillierte Analyse der Daten vorgenommen wurde. Dies belegt beispielhaft eine Studie der Retail Group laut
der die negativen Auswirkungen mangelnder Datenqualität und Datenanalyse
jährliche Zusatzkosten für Unternehmen von bis zu 1,14 Mrd. € verursachen,
und zwar aufgrund nicht zustellbarer Lieferungen durch fehlende Adressen
und mangelhafte Verfahren der Adressierung.
4
www.datenfabrik.com
Umfangreiches Regelwerk innerhalb des Data
Profiling
Um allen Stakeholdern im Rahmen des Data Profiling aussagekräftige Analysen
und Statistiken zur Verfügung stellen zu können, ist der datenfabrik.profiler mit
einer Vielzahl von Regeln ausgestattet und kann darüber hinaus um eigene Daten
ergänzt werden. Folgende Regeln gehören unter anderem zum Bestandteil des
datenfabrik.profiler:
-
Knowledge Base
Regular Expression
Null Values
Key Candidate Profile
Length Distribution
Pattern Analysis
Column Values
Number Analysis
Doublemetaphone Frequency Table
String Analysis
Durch ein Plug-in-Konzept kann der datenfabrik.profiler jederzeit um zusätzliche
Regeln erweitert werden und bietet so stets aktuelle Analysemöglichkeiten für
unterschiedlichste Projekte.
5
www.datenfabrik.com
Analyse der Datenqualität im historischen Verlauf
Da sich Daten in den Quellsystemen regelmäßig verändern, ist es relevant das
Data Profiling nicht als eine einmalige Aufgabe, sondern vielmehr als einen
kontinuierlichen Prozess zu verstehen. Innerhalb dieses Prozesses muss es für
alle Beteiligten möglich sein, Ist-Zustände der einzelnen Analysen zu vergleichen und somit auch zu einem späteren Zeitpunkt auf die bereits getätigten
Analysen zugreifen zu können.
Der datenfabrik.profiler speichert hierfür die einzelnen Analysen in einem
historischen Verlauf und ermöglicht einen Zugriff auf die jeweiligen Daten zu
jedem gewünschten Zeitpunkt. Darüber hinaus schließt der datenfabrik.profiler mit seiner innovativen Speicherfunktion „Update-Statistics“ die
Lücke zwischen einzelnen Analysen im historischen Verlauf.
Auch der Aspekt der Echtzeit-BI wird hierbei abgedeckt: So bietet die
Komponente nicht nur die Möglichkeit Analysen und Statistiken für die
momentan geladenen Daten zu generieren, sondern auch für den jeweiligen
tatsächlichen Ist-Zustand des gesamten Datenbestandes innerhalb eines
inkrementellen Ladeprozesses.
6
www.datenfabrik.com
Zentrales Repository für die unternehmensweite
Analyse
Sämtliche Ergebnisse des Data Profiling werden in einem zentralen Repository
gespeichert. Je nach den geltenden Datenschutzrichtlinien können erweiterte
Daten zur weiteren Analyse oder nur die bereits verdichteten Analyseergebnisse gespeichert werden.
Der Zugriff auf das zentrale Repository ist durch eine moderne Windows GUI
aber nicht nur dem Business Intelligence-Entwickler oder Datenintegrationsspezialisten vorbehalten. Durch eine einfache Menüführung stehen sämtliche
Analysen und Statistiken auch dem Management und den Data-Stewards zur
Verfügung.
7
www.datenfabrik.com
Durchgehende Überwachung der Daten in allen
Quellsystemen
Die aus den Analysen und Statistiken gewonnenen Erkenntnisse können
innerhalb des datenfabrik.profiler schnell in Business-Regeln umgesetzt werden, mit denen ein einheitliches Monitoring in allen Quellsystemen realisiert
werden kann. Die Business-Regeln ermöglichen die Definition von Schwellenwerten und die Erstellung von Informationen für einzelne Personen oder
Personengruppen per E-Mail, in welchen diese über die Über- oder Unterschreitung von Schwellenwerten informiert werden können.
In ETL-Prozessen, in denen das Data Profiling bzw. das Data Monitoring mit
Hilfe des datenfabrik.profiler einen zentralen Bestandteil des Integrationsprozesses darstellt, kann der Ladeprozess auch Bestandteil einer Transaktion
sein, die durch das Monitoring des datenfabrik.profiler gesteuert wird. Hierdurch ist nicht nur gewährleistet, dass mit dem datenfabrik.profiler ein
durchgehender Überblick über die geladenen Daten geschaffen wird, sondern
Ladeprozesse auch aktiv beobachtet und bewertet werden können, wodurch
direkt auf den Umgang mit fehlerhaften Daten reagiert werden kann.
8
www.datenfabrik.com
Datenqualitätsanalysen für verschiedene Quellsysteme
Durch die Integration des datenfabrik.profiler in die Microsoft SQL Server
Integration Services ist es möglich, auf unterschiedlichste Datenquellen zuzugreifen und so ein einheitliches Data Profiling in heterogenen Umgebungen
zu gewährleisten. Microsoft bietet mit den Integration Services bereits einen
Zugriff auf verschiedene hauseigene Datenbanken und Datenformate wie
Microsoft SQL Server, Microsoft Access und Microsoft Excel an, unterstützt
darüber hinaus aber auch Datenbanken wie Oracle oder dbase, CSV und
Textdateien. Durch Datenprovider von Drittanbietern kann der Umfang
nahezu beliebig erweitert werden. So stehen heute schon Datenprovider für
SAP, Terradata, IBM DB2, Sybase, Postgre SQL, Filemaker oder Sharepoint zur
Verfügung.
Durch diesen Funktionsumfang kann mit dem datenfabrik. profiler ein Data
Profiling-Prozess aufgesetzt werden, der Daten in den Unternehmen aus den
unterschiedlichsten Quellen analysiert.
9
www.datenfabrik.com
Die wichtigsten Funktionen auf einen Blick
10
-
Integration von Daten aus unterschiedlichsten Datenquellen innerhalb der
Microsoft SSIS
-
Speicherung der verschiedenen Analyseergebnisse in einem zentralen
Repository
-
Historisierung einzelner Ausführungen im Repository
-
Möglichkeit eines inkrementellen Ladeprozesses mit Darstellung des
Gesamtergebnisses
-
Spezielles Plug-in-Konzept ermöglicht Erweiterung um weitere, selbstdefinierte Regeltypen
-
Alert-Funktion: Benachrichtigung bei Über- und Unterschreitung zuvor
definierter Schwellenwerte innerhalb einer Regel
-
Darstellung der Ergebnisse des Data Profilings in Form von statistischen
Analysegrafiken
-
Reporting-Funktion zur Erstellung eigener Reports
-
einheitliches leistungsstarkes Data Profiling in heterogenen Umgebungen
www.datenfabrik.com
Data Quality Components
for SQL Server Integration Services
11
www.datenfabrik.com
datenfabrik GmbH & Co. KG
Siebenmorgenweg 6–8
D.53229 Bonn
Fon +49 . 228 . 9 02 99 0
Fax
+49 . 228 . 9 02 99 10
Mail [email protected]
Web www.datenfabrik.com
©2012 datenfabrik GmbH & Co. KG
12
www.datenfabrik.com
Herunterladen