Factsheet - datenfabrik.com

Werbung
Factsheet
datenfabrik.profiler
www.datenfabrik.com
Ein Data Profiling wird in der Regel vor der Umsetzung von Projekten zur
Steigerung der Datenqualität bzw. bei einer Migration von Daten in andere
Systeme durchgeführt.
Im Zuge dieses Prozesses werden verfügbare Daten aus bestehenden
Datenquellen (z.B. Datenbanken, Dateien und Anwendungen) anhand zuvor
definierter, spezieller Kriterien und Regeln untersucht und anschließend das
Ergebnis der Überprüfung in Form von Informationen und Statistiken
dokumentiert.
Diese Analyse ermöglicht nicht nur eine genaue Einschätzung hinsichtlich des
derzeitigen Qualitätsniveaus der vorliegenden Daten, sondern auch die
Erstellung messbarer Indikatoren für ein durchgehendes, lückenloses
Monitoring.
Mit dem datenfabrik.profiler können Inhalt, Struktur und Qualität
hochkomplexer Datenstrukturen aus nahezu jeder Datenquelle (u.a. MS SQL
Server, Oracle, SAP) innerhalb der Microsoft SQL Server Integration Services
ermittelt werden. Beim Data Profiling werden verschiedenste Analysen anhand
von zahlreichen frei definierbaren Regeln, Dictionaries und Kriterien für jedes
zu analysierende Element durchgeführt.
2
www.datenfabrik.com
Die bereits im datenfabrik.profiler implementierten Regeln decken eine
Vielzahl unterschiedlicher Analyseverfahren ab und können über ein spezielles
Plug-in-Konzept um weitere Regeln erweitert werden.
Durch das umfangreiche Regelwerk können alle Inhalte innerhalb des
Datenflusses der SQL Server Integration Services, die vom Soll-Zustand
abweichen, direkt ermittelt und Abweichungen und Ausreißer frühzeitig
erkannt und verhindert werden. Die während der Überprüfung gesammelten
Informationen und erstellten Statistiken werden in einem zentralen Repository
gespeichert, für jede Ausführung neu erstellt, erweitert oder versioniert.
Dadurch ist es mit der Komponente möglich, jederzeit sowohl ein lückenloses
Monitoring als auch ein Data Profiling für einzelne oder inkrementelle
Aktualisierungen vorzunehmen.
Die Ergebnisse der vom datenfabrik.profiler vorgenommenen Datenqualitätsanalyse können zusätzlich für jedes untersuchte Datenelement in Form
aussagekräftiger Analysegrafiken und Reports dokumentiert und so als Basis
für anschließende Datenintegrations- und für Datenbereinigungsmaßnahmen
verwendet werden.
datenfabrik.profiler analysiert die Qualität Ihrer Daten und erleichtert
Maßnahmen der Datenintegration und Datenbereinigung
3
www.datenfabrik.com
Die wichtigsten Funktionen im Überblick:
-
Datenqualitätsanalyse anhand zahlreicher, vordefinierter Regeltypen,
wie Data Dictionaries, regular expressions und pattern analysis
-
Spezielles Plug-in-Konzept ermöglicht Erweiterung um weitere,
selbstdefinierte Regeltypen
-
Speicherung der Ergebnisse und Daten in einem zentralen Repository
-
Historisierung einzelner Ausführungen im Repository
-
Reporting-Funktion zur Erstellung eigener Reports
-
Alert-Funktion zur Benachrichtigung bei Über- und Unterschreitung
zuvor definierter Schwellenwerte innerhalb einer Regel
-
Darstellung der Ergebnisse des Data Profilings in Form von statistischen
Analysegrafiken
Übersicht der wichtigsten Regeltypen:
Knowledge Base: Ermöglicht eine Validierung der
Eingabedaten mithilfe benutzerdefinierter und bereits
vordefinierter Knowledge Bases.
Regular Expression: Ermöglicht eine Validierung von Daten
anhand zahlreicher vordefinierter regulärer Ausdrücke (u.a.
Postleitzahlen, Telefonnummern, URLs, E-Mail-Adressen, EAN
Codes), die vom Benutzer beliebig erweitert werden können.
Null Values: Überprüft die Daten innerhalb des Datenflusses
auf Nullwerte.
4
www.datenfabrik.com
Key Candidate Profile: Ermittelt eindeutig vorkommende
Werte pro Spalte und erstellt gemäß der Ergebnisse eine
Prognose, welche Spalte als Schlüsselspalte verwendet werden
kann.
Length Distribution: Überprüft Daten auf ihre jeweilige
Zeichenlänge und bereitet die Verteilung der vorkommenden
Zeichenlängen statistisch auf.
Pattern Analysis: Identifiziert zu einzelnen Werten einer Spalte
gemeinsame Pattern-Muster, um so Ähnlichkeiten von einzelnen
Werten in Form von Spaltenmusterprofilen dokumentieren zu
können.
Column Values: Zählt die in einer Spalte eindeutig
vorkommenden Werte und bereitet die Verteilung dieser
statistisch auf.
Number Analysis: Versucht für die zu überprüfenden Spalten
eine numerische Analyse anhand verschiedener mathematischer
Berechnungen (u.a. höchster und kleinster Wert, Summe,
Mittelwert) vorzunehmen.
Doublemetaphone Frequency Table: Führt in den zu
überprüfenden Spalten einen phonetischen Vergleich durch,
wodurch gleichlautende Werte ermittelt und zusammengefasst
werden können.
String Analysis: Überprüft Werte in ausgewählten Spalten
mithilfe von unterschiedlichen Standard-String-Funktionen.
5
www.datenfabrik.com
datenfabrik GmbH & Co. KG
Siebenmorgenweg 6–8
D.53229 Bonn
Fon +49 . 228 . 9 02 99 0
Fax
+49 . 228 . 9 02 99 10
Mail [email protected]
Web www.datenfabrik.com
6
www.datenfabrik.com
Herunterladen