Data Profiling und Monitoring mit Microsoft SQL Server Integration Services www.datenfabrik.com Inhalt Kontinuierliches Data Profiling und Monitoring mit Microsoft SSIS ...................... 3 Auswirkungen schlechter Datenqualität ............................................................. 4 Analyse der Datenqualität im historischen Verlauf .............................................. 6 Zentrales Repository für die unternehmensweite Analyse ................................... 7 Durchgehende Überwachung der Daten in allen Quellsystemen ......................... 8 Datenqualitätsanalysen für verschiedene Quellsysteme ....................................... 9 Die wichtigsten Funktionen auf einen Blick ...................................................... 10 2 www.datenfabrik.com Kontinuierliches Data Profiling und Monitoring mit Microsoft SQL Server Integration Services Der datenfabrik.profiler ermöglicht eine schnelle und einfache Analyse des Inhalts, der Struktur und der Qualität von Daten aus unterschiedlichsten Datenquellen innerhalb der Microsoft SQL Server Integration Services und erlaubt so eine effektive Gestaltung von Datenintegrationsprozessen. Mit den vielfältigen und leistungsstarken Data Profiling-Optionen des datenfabrik.profiler werden Business Intelligence-Entwickler, Database-Manager und Data-Stewards in die Lage versetzt, sich ein einheitliches Bild der Quelldaten zu verschaffen, frühzeitig Fehler und Ausreißer zu erkennen und eigene Business-Regeln zu erstellen. Der datenfabrik.profiler liefert für die Analyse historische Informationen und ermöglicht über ein durchgehendes Monitoring auch nach Abschluss der Überprüfung eine Überwachung der aus der Analyse abgeleiteten BusinessRegeln. Durch den Einsatz des datenfabrik.profiler können somit Projektkosten gesenkt und die Entwicklungszeit von Projekten verringert werden. Die Datenqualität, einer der wesentlichsten Aspekte in den Projekten, wird im Zuge der Überprüfung nie aus den Augen verloren und kann auf diese Weise entscheidend verbessert werden. 3 www.datenfabrik.com Auswirkungen schlechter Datenqualität Den Inhalt, die Strukturen und vor allem die Qualität von Quelldaten zu verstehen, zählt zu einem der wichtigsten Erfolgsfaktoren für Datenintegrationsund Datenqualitätsprojekte. Es existieren zahlreiche Situationen, in denen Daten aus unterschiedlichen Systemen in ein anderes System integriert oder zusammengeführt werden: Zu ihnen zählen etwa Firmenübernahmen, der Erwerb einer neuen ERP-Lösung, die Zusammenarbeit mit externen Dienstleistern oder der Aufbau einer Data Warehouse-Lösung. Alle diese Szenarien können sich jedoch negativ auf die Qualität der Daten auswirken, wenn diese ohne weitere Maßnahmen, Überlegungen und Regeln verarbeitet werden. Auf der Metaebene, also innerhalb der Datenbeschreibung des Datenmodells, können gravierende Unterschiede bestehen, in denen z.B. Datenfelder und -beschreibungen nicht mehr aktuell sind, Datentypen zwischen Systemen Unterschiede aufweisen oder Feldbenennungen unterschiedliche Bedeutungen besitzen. Aber auch die Daten selbst können unterschiedlichste Strukturen aufweisen, die über das Datenmodell nicht beschrieben werden können. Die aus diesen Unterschieden resultierenden Fehler können manchmal auch erst in nachgelagerten Prozessen in Erscheinung treten. So können z.B. feste Regeln für den Aufbau von Telefonnummern für eine CTI-Anwendung bestehen oder den Artikelbezeichnungen eine definierte Syntax für die Katalogproduktion und den Online-Shop zugrunde liegen. Die Auswirkungen einer schlechten Datenqualität zeichnen sich dabei häufig erst innerhalb von Projekten oder in Folgeprozessen ab. So haben Studien, welche die direkten Auswirkungen mangelnder Datenqualität untersuchten, ergeben, dass ca. 75% aller Datenintegrationsprojekte nicht den Plandaten entsprechen oder sogar gänzlich fehlschlagen. Zurückzuführen ist dies in den meisten Fällen auf eine schlechte Datenqualität und darauf, dass vor Projektbeginn keine detaillierte Analyse der Daten vorgenommen wurde. Dies belegt beispielhaft eine Studie der Retail Group laut der die negativen Auswirkungen mangelnder Datenqualität und Datenanalyse jährliche Zusatzkosten für Unternehmen von bis zu 1,14 Mrd. € verursachen, und zwar aufgrund nicht zustellbarer Lieferungen durch fehlende Adressen und mangelhafte Verfahren der Adressierung. 4 www.datenfabrik.com Umfangreiches Regelwerk innerhalb des Data Profiling Um allen Stakeholdern im Rahmen des Data Profiling aussagekräftige Analysen und Statistiken zur Verfügung stellen zu können, ist der datenfabrik.profiler mit einer Vielzahl von Regeln ausgestattet und kann darüber hinaus um eigene Daten ergänzt werden. Folgende Regeln gehören unter anderem zum Bestandteil des datenfabrik.profiler: - Knowledge Base Regular Expression Null Values Key Candidate Profile Length Distribution Pattern Analysis Column Values Number Analysis Doublemetaphone Frequency Table String Analysis Durch ein Plug-in-Konzept kann der datenfabrik.profiler jederzeit um zusätzliche Regeln erweitert werden und bietet so stets aktuelle Analysemöglichkeiten für unterschiedlichste Projekte. 5 www.datenfabrik.com Analyse der Datenqualität im historischen Verlauf Da sich Daten in den Quellsystemen regelmäßig verändern, ist es relevant das Data Profiling nicht als eine einmalige Aufgabe, sondern vielmehr als einen kontinuierlichen Prozess zu verstehen. Innerhalb dieses Prozesses muss es für alle Beteiligten möglich sein, Ist-Zustände der einzelnen Analysen zu vergleichen und somit auch zu einem späteren Zeitpunkt auf die bereits getätigten Analysen zugreifen zu können. Der datenfabrik.profiler speichert hierfür die einzelnen Analysen in einem historischen Verlauf und ermöglicht einen Zugriff auf die jeweiligen Daten zu jedem gewünschten Zeitpunkt. Darüber hinaus schließt der datenfabrik.profiler mit seiner innovativen Speicherfunktion „Update-Statistics“ die Lücke zwischen einzelnen Analysen im historischen Verlauf. Auch der Aspekt der Echtzeit-BI wird hierbei abgedeckt: So bietet die Komponente nicht nur die Möglichkeit Analysen und Statistiken für die momentan geladenen Daten zu generieren, sondern auch für den jeweiligen tatsächlichen Ist-Zustand des gesamten Datenbestandes innerhalb eines inkrementellen Ladeprozesses. 6 www.datenfabrik.com Zentrales Repository für die unternehmensweite Analyse Sämtliche Ergebnisse des Data Profiling werden in einem zentralen Repository gespeichert. Je nach den geltenden Datenschutzrichtlinien können erweiterte Daten zur weiteren Analyse oder nur die bereits verdichteten Analyseergebnisse gespeichert werden. Der Zugriff auf das zentrale Repository ist durch eine moderne Windows GUI aber nicht nur dem Business Intelligence-Entwickler oder Datenintegrationsspezialisten vorbehalten. Durch eine einfache Menüführung stehen sämtliche Analysen und Statistiken auch dem Management und den Data-Stewards zur Verfügung. 7 www.datenfabrik.com Durchgehende Überwachung der Daten in allen Quellsystemen Die aus den Analysen und Statistiken gewonnenen Erkenntnisse können innerhalb des datenfabrik.profiler schnell in Business-Regeln umgesetzt werden, mit denen ein einheitliches Monitoring in allen Quellsystemen realisiert werden kann. Die Business-Regeln ermöglichen die Definition von Schwellenwerten und die Erstellung von Informationen für einzelne Personen oder Personengruppen per E-Mail, in welchen diese über die Über- oder Unterschreitung von Schwellenwerten informiert werden können. In ETL-Prozessen, in denen das Data Profiling bzw. das Data Monitoring mit Hilfe des datenfabrik.profiler einen zentralen Bestandteil des Integrationsprozesses darstellt, kann der Ladeprozess auch Bestandteil einer Transaktion sein, die durch das Monitoring des datenfabrik.profiler gesteuert wird. Hierdurch ist nicht nur gewährleistet, dass mit dem datenfabrik.profiler ein durchgehender Überblick über die geladenen Daten geschaffen wird, sondern Ladeprozesse auch aktiv beobachtet und bewertet werden können, wodurch direkt auf den Umgang mit fehlerhaften Daten reagiert werden kann. 8 www.datenfabrik.com Datenqualitätsanalysen für verschiedene Quellsysteme Durch die Integration des datenfabrik.profiler in die Microsoft SQL Server Integration Services ist es möglich, auf unterschiedlichste Datenquellen zuzugreifen und so ein einheitliches Data Profiling in heterogenen Umgebungen zu gewährleisten. Microsoft bietet mit den Integration Services bereits einen Zugriff auf verschiedene hauseigene Datenbanken und Datenformate wie Microsoft SQL Server, Microsoft Access und Microsoft Excel an, unterstützt darüber hinaus aber auch Datenbanken wie Oracle oder dbase, CSV und Textdateien. Durch Datenprovider von Drittanbietern kann der Umfang nahezu beliebig erweitert werden. So stehen heute schon Datenprovider für SAP, Terradata, IBM DB2, Sybase, Postgre SQL, Filemaker oder Sharepoint zur Verfügung. Durch diesen Funktionsumfang kann mit dem datenfabrik. profiler ein Data Profiling-Prozess aufgesetzt werden, der Daten in den Unternehmen aus den unterschiedlichsten Quellen analysiert. 9 www.datenfabrik.com Die wichtigsten Funktionen auf einen Blick 10 - Integration von Daten aus unterschiedlichsten Datenquellen innerhalb der Microsoft SSIS - Speicherung der verschiedenen Analyseergebnisse in einem zentralen Repository - Historisierung einzelner Ausführungen im Repository - Möglichkeit eines inkrementellen Ladeprozesses mit Darstellung des Gesamtergebnisses - Spezielles Plug-in-Konzept ermöglicht Erweiterung um weitere, selbstdefinierte Regeltypen - Alert-Funktion: Benachrichtigung bei Über- und Unterschreitung zuvor definierter Schwellenwerte innerhalb einer Regel - Darstellung der Ergebnisse des Data Profilings in Form von statistischen Analysegrafiken - Reporting-Funktion zur Erstellung eigener Reports - einheitliches leistungsstarkes Data Profiling in heterogenen Umgebungen www.datenfabrik.com Data Quality Components for SQL Server Integration Services 11 www.datenfabrik.com datenfabrik GmbH & Co. KG Siebenmorgenweg 6–8 D.53229 Bonn Fon +49 . 228 . 9 02 99 0 Fax +49 . 228 . 9 02 99 10 Mail [email protected] Web www.datenfabrik.com ©2012 datenfabrik GmbH & Co. KG 12 www.datenfabrik.com