Factsheet datenfabrik.profiler www.datenfabrik.com Ein Data Profiling wird in der Regel vor der Umsetzung von Projekten zur Steigerung der Datenqualität bzw. bei einer Migration von Daten in andere Systeme durchgeführt. Im Zuge dieses Prozesses werden verfügbare Daten aus bestehenden Datenquellen (z.B. Datenbanken, Dateien und Anwendungen) anhand zuvor definierter, spezieller Kriterien und Regeln untersucht und anschließend das Ergebnis der Überprüfung in Form von Informationen und Statistiken dokumentiert. Diese Analyse ermöglicht nicht nur eine genaue Einschätzung hinsichtlich des derzeitigen Qualitätsniveaus der vorliegenden Daten, sondern auch die Erstellung messbarer Indikatoren für ein durchgehendes, lückenloses Monitoring. Mit dem datenfabrik.profiler können Inhalt, Struktur und Qualität hochkomplexer Datenstrukturen aus nahezu jeder Datenquelle (u.a. MS SQL Server, Oracle, SAP) innerhalb der Microsoft SQL Server Integration Services ermittelt werden. Beim Data Profiling werden verschiedenste Analysen anhand von zahlreichen frei definierbaren Regeln, Dictionaries und Kriterien für jedes zu analysierende Element durchgeführt. 2 www.datenfabrik.com Die bereits im datenfabrik.profiler implementierten Regeln decken eine Vielzahl unterschiedlicher Analyseverfahren ab und können über ein spezielles Plug-in-Konzept um weitere Regeln erweitert werden. Durch das umfangreiche Regelwerk können alle Inhalte innerhalb des Datenflusses der SQL Server Integration Services, die vom Soll-Zustand abweichen, direkt ermittelt und Abweichungen und Ausreißer frühzeitig erkannt und verhindert werden. Die während der Überprüfung gesammelten Informationen und erstellten Statistiken werden in einem zentralen Repository gespeichert, für jede Ausführung neu erstellt, erweitert oder versioniert. Dadurch ist es mit der Komponente möglich, jederzeit sowohl ein lückenloses Monitoring als auch ein Data Profiling für einzelne oder inkrementelle Aktualisierungen vorzunehmen. Die Ergebnisse der vom datenfabrik.profiler vorgenommenen Datenqualitätsanalyse können zusätzlich für jedes untersuchte Datenelement in Form aussagekräftiger Analysegrafiken und Reports dokumentiert und so als Basis für anschließende Datenintegrations- und für Datenbereinigungsmaßnahmen verwendet werden. datenfabrik.profiler analysiert die Qualität Ihrer Daten und erleichtert Maßnahmen der Datenintegration und Datenbereinigung 3 www.datenfabrik.com Die wichtigsten Funktionen im Überblick: - Datenqualitätsanalyse anhand zahlreicher, vordefinierter Regeltypen, wie Data Dictionaries, regular expressions und pattern analysis - Spezielles Plug-in-Konzept ermöglicht Erweiterung um weitere, selbstdefinierte Regeltypen - Speicherung der Ergebnisse und Daten in einem zentralen Repository - Historisierung einzelner Ausführungen im Repository - Reporting-Funktion zur Erstellung eigener Reports - Alert-Funktion zur Benachrichtigung bei Über- und Unterschreitung zuvor definierter Schwellenwerte innerhalb einer Regel - Darstellung der Ergebnisse des Data Profilings in Form von statistischen Analysegrafiken Übersicht der wichtigsten Regeltypen: Knowledge Base: Ermöglicht eine Validierung der Eingabedaten mithilfe benutzerdefinierter und bereits vordefinierter Knowledge Bases. Regular Expression: Ermöglicht eine Validierung von Daten anhand zahlreicher vordefinierter regulärer Ausdrücke (u.a. Postleitzahlen, Telefonnummern, URLs, E-Mail-Adressen, EAN Codes), die vom Benutzer beliebig erweitert werden können. Null Values: Überprüft die Daten innerhalb des Datenflusses auf Nullwerte. 4 www.datenfabrik.com Key Candidate Profile: Ermittelt eindeutig vorkommende Werte pro Spalte und erstellt gemäß der Ergebnisse eine Prognose, welche Spalte als Schlüsselspalte verwendet werden kann. Length Distribution: Überprüft Daten auf ihre jeweilige Zeichenlänge und bereitet die Verteilung der vorkommenden Zeichenlängen statistisch auf. Pattern Analysis: Identifiziert zu einzelnen Werten einer Spalte gemeinsame Pattern-Muster, um so Ähnlichkeiten von einzelnen Werten in Form von Spaltenmusterprofilen dokumentieren zu können. Column Values: Zählt die in einer Spalte eindeutig vorkommenden Werte und bereitet die Verteilung dieser statistisch auf. Number Analysis: Versucht für die zu überprüfenden Spalten eine numerische Analyse anhand verschiedener mathematischer Berechnungen (u.a. höchster und kleinster Wert, Summe, Mittelwert) vorzunehmen. Doublemetaphone Frequency Table: Führt in den zu überprüfenden Spalten einen phonetischen Vergleich durch, wodurch gleichlautende Werte ermittelt und zusammengefasst werden können. String Analysis: Überprüft Werte in ausgewählten Spalten mithilfe von unterschiedlichen Standard-String-Funktionen. 5 www.datenfabrik.com datenfabrik GmbH & Co. KG Siebenmorgenweg 6–8 D.53229 Bonn Fon +49 . 228 . 9 02 99 0 Fax +49 . 228 . 9 02 99 10 Mail [email protected] Web www.datenfabrik.com 6 www.datenfabrik.com