Data Quality Components for SQL Server Integration Services

Werbung
Data Quality Components for SQL Server
Integration Services
datenfabrik GmbH & Co. KG
Steigert die Datenqualität
Bei zahlreichen Data-Warehouse-Projekten nimmt die Datenqualität einen großen Anteil am zeitlichen wie auch finanziellen Projektbudget ein. Und das zu Recht: Präzise geführte
Datenbanken tragen in hohem Maße zum Erfolg von Marketing- oder Business-Intelligence-Strategien bei.
Als Spezialist für effektives Database-Management mit langjähriger Erfahrung im Versandhandel hat die datenfabrik
GmbH & Co. KG leistungsstarke Komponenten für die Microsoft SQL Server Integration Services (SSIS) entwickelt.
Gemeinsam mit namhaften Datenpartnern deckt sie den gesamten Bereich des Data Quality Managements ab und unterstützt ihre Kunden bei der Umsetzung gesetzlicher Vorgaben.
Um Informationen aktuell und zeitnah zur Verfügung zu stellen, setzt die datenfabrik GmbH & Co. KG mit den Integration
Services auf eine ETL-Plattform mit hoher Performance. So
lassen sich zum Beispiel mit datenfabrik.dedupe in nur einer
Stunde 15 Millionen Datensätze auf Dubletten untersuchen
oder mit datenfabrik.address in über 2,5 Millionen Datensätzen die postalischen Angaben überprüfen, normieren und geokodieren.
Durch die Zusammenarbeit mit weiteren namhaften Unternehmen, u. a. im Bereich des Change Data Capture, ermöglicht die datenfabrik GmbH & Co. KG ihren Kunden die Validierung, Bereinigung und Anreicherung ihrer Daten in nahezu
Echtzeit.
Die SSIS-Komponenten im Überblick
• datenfabrik.address: Validiert, normiert und geokodiert
Adressen mit Referenzdaten aus über 240 Ländern und
Territorien.
• datenfabrik.phone: Validiert und korrigiert Telefonnummern und Kundendaten.
• datenfabrik.dedupe: Erkennt Dubletten schnell und erfolgreich mit einer einzigartigen Geschwindigkeit.
• datenfabrik.merge: Verschmilzt Dubletten in strukturierten Datenbeständen (Record Linkage).
• datenfabrik.deletix: Löscht Dubletten nach verschiedenen Prioritätsinformationen und erstellt Löschprotokolle.
• datenfabrik.email: Validiert E-Mail-Adressen nach dem
RFC 2822 und DNS Abfragen.
• datenfabrik.gender: Ermittelt die korrekte Anrede anhand des Vornamens für unterschiedliche Länder.
• datenfabrik.currency: Rechnet Beträge in verschiedene
Währungen mit aktuellen und historischen Daten um.
• datenfabrik.profiler: Führt ein durchgehendes Profiling
und Monitoring der Daten innerhalb der SSIS Pakete
durch.
• datenfabrik.null: Löscht Leerzeichen am Anfang und
Ende eines Strings und wandelt Leerstrings automatisch
in DBNULL um. Dieses Produkt ist Freeware.
Auf den folgenden Seiten finden Sie zu jedem Produkt eine
Funktionsübersicht und ausgewählte Screenshots.
I
I
www.datenfabrik.com
Increases data quality
In numerous data warehouse projects data quality is taking
up a large proportion of both time and financial resources.
And this is the right track. Consistently managed databases
contribute significantly to success in marketing-or business intelligence strategies.
As specialist for effective database management with many
years of experience in mail-order business, the datenfabrik
GmbH & Co. KG has developed high-performing components for Microsoft’s SQL Server Integration Services. In
cooperation with well-known partner, the whole spectrum
of data quality management is covered and customers are
supported with implementation of compliance with legal
regulations.
To allocate information up-to-date and nearly in real time
the datenfabrik GmbH & Co. KG employs a high performing ETL-platform by using the Integration Services.
Based on this, datenfabrik.dedupe is able to detect duplicates within 15 million data records in only one hour and
datenfabrik.address checks, validates and corrects 2.5
million data records at the same time.
In collaboration with further nameable partners, which
are, among others, working in the area of Change-DataCapture the datenfabrik GmbH & Co. KG enables customers to validate, clean and enhance their data in almost
real time.
Overview of SSIS-Components
• datenfabrik.address: Validates, standardizes and geocodes addresses with reference data of more than 240
countries and territories.
• datenfabrik.phone: Validates and corrects phone numbers and customer data.
• datenfabrik.dedupe: Quickly and successfully detects
duplicates with unrivalled speed.
• datenfabrik.merge: Merges duplicates within structured data pools (record linkage).
• datenfabrik.deletix: Deletes duplicates based on different priority information and builds detailed processing
logs.
• datenfabrik.email: Validates email addresses based on
RFC 2822 and DNS queries.
• datenfabrik.gender: Ascertains the correct salutation
for various countries by using the first name.
• datenfabrik.currency: Converts amounts of money into
different currencies with current and historical data information.
• datenfabrik.profiler: Executes ongoing data monitoring
and profiling within the SSIS packages.
• datenfabrik.null: Deletes spaces at the start and end of
a string and translates empty strings automatically into
DBNULL. This product is freeware.
In following a functional overview as well as selected
screenshots for each product are given.
I
I
I
datenfabrik.address
Validiert Adressdaten
Validates Address data
Mit datenfabrik.address wird eine Komponente für die
SQL Server Integration Services zur Validierung und Korrektur von Adressen mit Referenzdaten aus 240 Ländern
weltweit angeboten. Für viele Länder stehen die Referenzdaten auf Straßenebene mit historischen Informationen
zur Verfügung. Zusätzlich geokodiert die aktuelle Version
der Komponente Adressen für über 25 Länder mit Referenzdaten auf Hausnummernebene.
With datenfabrik.address a component for SQL Server
Integration Services is provided to validate and correct
addresses with reference data from 240 countries worldwide. Reference data at street level with historical information is available for many countries. The current version
is also able to geocode addresses in more than 25 countries
using reference data based on a level of house numbers.
Funktionsübersicht
• Suche nach richtiger Schreibweise mit phonetischen
Algorithmen
Functional Overview
• Search for correct spelling using phonetic algorithms
• Normierung von Straßennamen
• Umbenennung von Straßennamen anhand historischer
Informationen
• Ergänzung mit Zusatzinformationen wie Landkreis und
Bundesland
• Anreicherung mit Geokoordinaten für mehr als
25 Länder
Partner
I
V
• Standardization of street names
• Renaming of street names using historical information
• Completion with additional information such as district
and provinces
• Data enhancement with geocodes for more than
25 countries
www.datenfabrik.com
Hinzufügen zusätzlicher Ausgabespalten wie Bundesland,
Land oder Validierungsstatus.
Addition of output columns such as Federal State, Country
or Validation Status.
Anpassen der Adressdaten für die Ausgabe an landesübliche
Schreibweisen, Abkürzungen und Groß- und Kleinschreibungen.
Adaption of address data for the output in country-specific
spellings, abbreviations as well as upper and lower case rules.
Bestimmung des Alphabets der Eingabesprache, der Granularität der Adressdaten sowie der Sprache für die Ausgabefelder.
Definition of input language alphabet, granularity of the
address data and language for output fields.
Definition verschiedener länderspezifischer Referenzdatenbanken sowie genereller Einstellungen wie Cache-Größe und Speicherverwendung.
Definition of different country-specific reference databases and general settings such as cache size and
V
memory use.
datenfabrik.email
Validiert E-Mail-Adressen
Validates Email addresses
Innerhalb des Datenflusses der SQL Server Integration
Services validiert datenfabrik.email die E-Mail-Adressen
des Kundendatenbestandes über die rudimentäre Prüfung
auf Syntaxfehler hinaus.
Within a SSIS data stream, datenfabrik.email validates
email addresses of customer data lists beyond a rudimentary check for syntax errors. In the various check-modes
the component identifies both; formal errors in the email
addresses and non-existent top level domains, missing
domains or non-available email servers.
In verschiedenen Prüfmodi erkennt die Komponente sowohl formelle Fehler in der E-Mail-Adresse als auch nicht
vorhandene Top-Level-Domains, fehlerhafte Gesamtdomains oder nicht verfügbare E-Mail-Server.
Funktionsübersicht
• Validierung der Syntax der E-Mail-Adressen nach Teilen
der RFC 2822
Functional Overview
• Validation of the syntax of email addresses according to
parts of RFC 2822
• Validierung der Top-Level-Domain gegen eine lokale
TLD-Liste
• Validation of the top level domains through a local
TLD-list
• Validierung der gesamten Domains über den Standardoder einen frei zu definierenden DNS-Server
• Validation of domains via the standard- or a freely
definable DNS-Server
• Validierung der E-Mail-Adresse per SMTP gegen einen
E-Mail-Server (nur im Advanced Mode)
• Validation of email addresses with SMTP through an
email server (in Advanced Mode only)
V
I
www.datenfabrik.com
Validierung frei definierbarer Eingangsspalten. Zur Validierung werden Referenzdaten zur Prüfung der Top-LevelDomain sowie konfigurierbare DNS-Server hinzugezogen.
Adding reference data to verify top level domains, as well
as configurable DNS servers.
Konfiguration von SMTP- und Proxy-Server zur Validierung
der E-Mail-Adresse per SMTP gegen einen E-Mail-Server.
Configuration of SMTP and Proxy-Server for validation of
email addresses by using SMTP through an email server.
V
I
I
datenfabrik.gender
Analysiert Anreden
Analyses Salutations
Mit datenfabrik.gender werden innerhalb der Integration
Services Anreden anhand des Vornamens geprüft. So wird
mit der SSIS Komponente gewährleistet, dass Kunden immer mit der richtigen Anrede kontaktiert werden.
Within the Integration Services, datenfabrik.gender verifies the gender of customers by using the first name. Therefore the SSIS component ensures that customers are always
contacted with the correct salutation.
Funktionsübersicht
• Bestimmung des Geschlechts anhand des Vornamens
Functional Overview
• Determination of gender using the first name
• Zugriff auf umfangreiche Vornamensinformationen
• Access to comprehensive first name information
• Ausgabe eines vordefinierten Geschlechts bei nicht
eindeutigen Angaben
• Output of a pre-defined gender when the information is
ambiguous
• Suche über den zweiten Vornamen möglich
• Search via middle names
• Suche mit phonetischen Algorithmen möglich
• Search with phonetic algorithms
V
I
I
I
www.datenfabrik.com
Konfiguration der Ein- und Ausgabespalten sowie der länderspezifischen Referenzdaten.
Configuration of input and output columns and countryspecific reference data.
Optionen zur Verarbeitung der Vornamen und Konfiguration der Ausgabewerte.
Options for processing of first names and configuration of
output values.
I
X
datenfabrik.phone
Validiert Telefondaten
Validates Phone Datan
Mit datenfabrik.phone werden Telefon-, Fax- und Mobilfunknummern innerhalb des Datenflusses der SQL Server
Integration Services validiert, korrigiert und in eine einheitliche Schreibweise überführt. Es besteht die Möglichkeit, Kundendaten anhand der Telefonnummer zu prüfen,
zu korrigieren und mit weiteren Informationen aus dem
Telefonbuch zu ergänzen.
The datenfabrik.phone component is used to validate,
correct and standardize phone, fax and mobile phone
numbers within the data flow of the SQL Server Integration Services. It is possible to verify and correct customer
data using the phone number and add further information
from phone book.
Funktionsübersicht
• Validierung von Telefonnummern anhand gegebener Daten
Functional Overview
• Validation of phone numbers using given data
• Validierung von Telefonnummern über die Rückwärtssuche
• Validation of phone numbers using a reverse search
• Validierung von Kundendaten mit aktuellen Telefonnummern, Faxnummern oder Handynummern
• Normierung von Telefonnummern
• Validation of customer data with current phone, fax and
mobile phone numbers
• Standardization of phone numbers
• Ergänzung um Zusatzinformationen wie Brancheneinträge
• Supplementation with extra information such as sector
entries
• Suche mit phonetischen Algorithmen
• Search with phonetic algorithms
Partner
X
www.datenfabrik.com
Definition verschiedener Suchumgebungen und Speicherung für eine zentrale Verwaltung.
Definition of various search environments and saving for
central administration purposes.
Verbindungsparamter zu einem klickTel Server und Definition der klickTel Server Version.
Connection parameters to a klickTel server and definition
of the klickTel server version.
X
I
datenfabrik.currency
Rechnet Währungen um
Converts currencies
Mit datenfabrik.currency werden Währungen aus verschiedenen Ländern direkt in einheitliche Zielwährungen
umgerechnet. Die SSIS Komponente greift dabei auf historische Informationen zurück und rechnet nachträglich
Beträge mit dem zum Zeitpunkt der Rechnungsstellung
gültigen Währungskurs um.
With datenfabrik.currency, currencies from different
countries can be directly converted into standardized
target currencies. The SSIS components therefore can
access historical information and retrospectively convert
amounts with the valid exchange rate at the time the
invoice was issued.
Funktionsübersicht
• Umrechnung von Währungen in eine einheitliche
Zielwährung
Functional Overview
• Conversion of currencies into a standardized target
currency
• Zugriff auf historische Informationen
• Access to historical information
• Umrechnungskurse der Europäischen Zentral Bank
mit 37 Währungen im Standard Datenpool
• Conversion rates of the European Central Bank with
37 currencies in standard data pool
• Ergänzung von zusätzlichen Währungsinformationen
• Addition of extra currency information
• Zugriff auf stundengenaue Daten durch weitere externe
Datafeeds möglich
• Hourly access to data through additional external data
feeds possible
X
I
I
www.datenfabrik.com
Konfiguration der Ein- und Ausgabespalten sowie der länderspezifischen Referenzdaten.
Quell- und Zielwährung werden über Variablen, Eingabespalten oder einen festen Wert definiert.
Configuration of input and output columns and country
specific reference data. Source and target currencies are
defined as variables, through input columns or as fixed
values.
Konfiguration des Datums des zu verwendenden Umrechnungskurses sowie Definition eines Ausweichdatums.
Defining the date of currency conversion.
X
I
I
I
datenfabrik.dedupe
Findet Dubletten
Detects Duplicates
Bei dem Zusammenführen von Datenbeständen aus
unterschiedlichen Systemen entstehen doppelte Datensätze, die sich nur schwer automatisiert finden lassen.
datenfabrik.dedupe ist eine SSIS Datenflusskomponente
zur Suche von Dubletten mit phonetischen Algorithmen.
Die Komponente findet extrem schnell mehrfach vorhandene Datensätze in Adressbeständen und bietet eine
einzigartige Symbiose von Treffergenauigkeit und Performance. Für den Abgleich von 15 Millionen Datensätzen
benötigt datenfabrik.dedupe weniger als eine Stunde.
When merging data pools from different systems, duplicated data records, which are difficult to find in automated
processes, arise. With datenfabrik.dedupe a SSIS data
flow component to search for duplicates with phonetic
algorithms is provided. The component quickly finds redundant data records in address pools and offers a unique
symbiosis of hit accuracy and performance. It takes less
than one hour to process 15 million data records with
datenfabrik.dedupe.
Funktionsübersicht
• Dublettensuche mit phonetischen Algorithmen
Functional Overview
• Duplicate search with phonetic algorithms
• Definition beliebiger Sortierschlüssel, der Suchumgebung (Sorted Neighbourhood) und beliebiger SuchParametersets
• Definition of sort keys, the search environment (sorted
neighborhood) and any search parametersets
• Minimaler Score pro Spalte und pro Parameterset
• Filter zur Normalisierung von Namen und Straßen
• Partielle Dublettensuche
• Speichern und Laden von Parametersets
X
I
V
• Minimum score per column and parameterset
• Filter for the standardization of names and streets
• Partial duplicate search
• Saving and loading of parametersets
www.datenfabrik.com
Konfiguration der verschiedenen Parameter zur Dublettensuche, z. B. Suchumgebungen, Sortierschlüssel, temporärer SQL Server oder partielle Dublettensuche.
Configuration of different parameters for duplicate search,
e. g. search environments, sort keys, temporary SQL Servers or partial duplicate search.
Definition von Parametersets zur Dublettensuche unter
Angabe verschiedener Schwellenwerte, Kreuzprüfungen
und Normalisierungsfilter.
Definition of parametersets for search of duplicates using
different threshold values, cross-checks and normalization
filter.
Konfiguration von Sortierschlüsseln zur Definition verschiedener Suchumgebungen über beliebige Eingangsspalten.
Configuration of sort keys to define different search environments by using definable input columns.
Einstellungen zur Normalisierung der Daten über XMLDateien oder Datenbanken.
Settings to normalize data via XML files or databases.
X
V
datenfabrik.deletix
Löscht Dubletten
Deletes duplicates
Die Komponente datenfabrik.deletix ermöglicht das Löschen von Dubletten mit verschiedenen Prioritäten und
Sperrvermerken. Die Verarbeitung verschiedener Quellen
kann lückenlos nachvollzogen und dokumentiert werden.
The SSIS component datenfabrik.deletix facilitates deleting duplicated data records with different priorities and
markings for blocking. The processing of different sources
can be easily reproduced and documented without any
gaps.
Funktionsübersicht
• Kennzeichnung verschiedener Datenquellen als Sperrdateien
Functional Overview
• Marking of different sources as blocking files
• Kennzeichnung verschiedener Datenquellen mit unterschiedlichen Prioritäten
• Löschen von Dubletten nach vergebenen Sperr- und
Prioritätsangaben
• Erstellung von Reports im TIFF-, PDF- oder Excel-Format
mit detaillierten Informationen zur Verarbeitung
• Erstellung einer Eliminationsmatrix
• Erstellung einer Überschneidungsmatrix
X
V
I
• Marking of different sources with different priorities
• Deletion of duplicates according to assigned blocking
and priority information
• Creation of reports in TIFF, PDF or Excel files with
detailed information about the processing
• Creation of an elimination matrix
• Creation of an overlapping matrix
www.datenfabrik.com
Dubletten werden innerhalb der Komponente direkt gelöscht oder als zusätzliche Ausgabe im Datenfluss definiert.
Duplicate data records can directly be deleted within the
component or are defined as an additional output in the
data stream.
Ausgabe verschiedener Statistiken (Abgleichmatrix) der
gefundenen Dubletten als Report oder Speicherung der
Daten in einem globalen Repository.
Output of various statistics (matrix tables) of the duplicates as report or archiving data in a global repository.
Angabe von Name und Beschreibung der durchgeführten
Aktion erleichtert die Übersicht verschiedener Reports
und ermöglicht eine verständliche, firmenweite Nutzung.
Providing name and description of the processes facilitates the overview of various reports and enables a coherent, company-wide usage.
X
V
I
I
datenfabrik.merge
Verschmilzt Dubletten
Merges Duplicates
Die SSIS Komponente datenfabrik.merge verschmilzt
Dubletten innerhalb von strukturierten Daten. Doppelte Daten werden anhand eines Gruppierungsschlüssels zusammengefasst und zu einem einzigen Datensatz
verschmolzen. Die Ausgabespalten werden dabei über
verschiedene Aggregate, mathematische Funktionen
oder durch das Auffüllen aus anderen Datensätzen innerhalb der Gruppierung erstellt. Dieses auch Record
Linkage genannte Verfahren eignet sich besonders, mit
datenfabrik.dedupe erkannte Dubletten weiterzuverarbeiten.
The SSIS component datenfabrik.merge merges duplicates within structured data. Duplicate data is linked using
a grouping key and merged into a single data record. The
output columns are compiled using different aggregates,
mathematical functions or they are filled from other data
records within the grouping. This process is also called record linkage and is particularly suitable for further processing of duplicates recognised in datenfabrik.dedupe.
Funktionsübersicht
• Gruppierung der Eingabedaten über einen speziellen
Schlüssel
Functional Overview
• Grouping of input data via a special key
• Berechnung neuer Spalten über Aggregate und mathematische Funktionen
• Bildung neuer Spalten durch String-Funktionen
• Neusortierung der Daten innerhalb spezieller Funktionen
• Mehrfach vorkommende Datensätze werden zu einem
Datensatz verschmolzen
X
V
I
I
I
• Calculation of new columns using aggregates and
mathematical functions
• Creation of new columns through string functions
• Resorting of data within special functions
• Repeatedly occurring data is merged into one data
record
www.datenfabrik.com
Ausgabespalten werden über verschiedene Aggregate und mathematische Funktionen erstellt oder mit Werten aus einer
Gruppierung aufgefüllt.
Output columns are compiled using different aggregates and mathematical functions or are filled with values from a grouping.
Von der globalen Sortierung abweichende Anordnungen
der Daten für bestimmte Eingangsspalten werden definiert.
Sorting of input data, which deflects from global order, can
be defined for different input columns.
X
I
X
datenfabrik.profiler
Analysiert Daten
Analyses data
datenfabrik.profiler prüft Daten innerhalb des Datenflusses gegen unterschiedlichste, frei zu definierende Regeln. Die Ergebnisse der Prüfungen werden in einem zentralen Repository gesammelt, wodurch ein umfangreiches
Monitoring innerhalb der Integration Services ermöglicht
wird.
With datenfabrik.profiler, data within the data stream is
verified through different, freely definable rules. The results of checks are collected in a central repository, which
enables comprehensive monitoring within Integration Services.
Funktionsübersicht
• Analyse der Daten mit umfangreichen Regeltypen, wie
Data Dictionaries, Reguläre Ausdrücke oder Spaltenmusterprofile
Functional Overview
• Analysis of the data with extensive rule types such as
data dictionaries, regular expressions or column sample
profiles
• Speicherung der Ergebnisse und Daten in einem zentralen Repository
• Archiving the results and data in a central repository
• Historisierung einzelner Ausführungen im Repository
• Benachrichtigung bei Überschreitung/Unterschreitung
einzelner Schwellenwerte pro Regel
X
X
• Creation of an execution history in the repository
• Notification in case of over/under stepping individual
threshold values per rule
www.datenfabrik.com
Analyse der Daten innerhalb des Datenflusses über unterschiedlichste, auch frei definierbare, Regeln.
Analysis within the data stream by using different and
freely definable rules.
Speicherung der Ergebnisse in einem zentralen Repository. Die Daten können über das externe Profiler Administrations Tool grafisch aufbereitet angezeigt werden.
Saving results in central repository. Data can be displayed
graphically formatted trough the external Profiler Administration Tool.
Anwendung unterschiedlicher Regeln auf wählbare Eingangsspalten.
Applying different rules on definable input columns.
Konfiguration unterschiedlicher Regeln für ausgewählte
Eingangsspalten.
Configuration of different rules for selectable input columns.
X
X
I
datenfabrik.null
Bereinigt Zeichenketten
Adjusts strings
datenfabrik.null ist eine Freeware Komponente für die
SQL Server Integration Services. Sie schneidet bei allen
eingehenden String-Daten Leerzeichen am Anfang oder
am Ende ab und wandelt Leerstrings automatisch in NULL
Werte (DBNULL) um.
datenfabrik.null is a freeware component for the SQL Server Integration Services. It trims spaces at start and end of
all incoming string data and sets empty strings automatically to NULL values (DBNULL).
Funktionsübersicht
• Löschung von Leerzeichen am Anfang und am Ende
eines Strings
Functional Overview
• Deletes spaces at start and end of a string
• Setzen von Leerstrings automatisch als DBNULL
• Freeware
X
X
I
I
• Sets empty strings automatically to DBNULL
• Freeware
www.datenfabrik.com
Coming together is a beginning, keeping together is progress, working together is success.
Henry Ford
X
X
I
I
I
023510515 • www.menke.de • www.fotolia.de
datenfabrik GmbH & Co. KG Siebenmorgenweg 6 – 8 D.53229 Bonn Fon +49 . 228 . 9 02 99 0 www.datenfabrik.com




Herunterladen