Data Quality Components for SQL Server Integration Services datenfabrik GmbH & Co. KG Steigert die Datenqualität Bei zahlreichen Data-Warehouse-Projekten nimmt die Datenqualität einen großen Anteil am zeitlichen wie auch finanziellen Projektbudget ein. Und das zu Recht: Präzise geführte Datenbanken tragen in hohem Maße zum Erfolg von Marketing- oder Business-Intelligence-Strategien bei. Als Spezialist für effektives Database-Management mit langjähriger Erfahrung im Versandhandel hat die datenfabrik GmbH & Co. KG leistungsstarke Komponenten für die Microsoft SQL Server Integration Services (SSIS) entwickelt. Gemeinsam mit namhaften Datenpartnern deckt sie den gesamten Bereich des Data Quality Managements ab und unterstützt ihre Kunden bei der Umsetzung gesetzlicher Vorgaben. Um Informationen aktuell und zeitnah zur Verfügung zu stellen, setzt die datenfabrik GmbH & Co. KG mit den Integration Services auf eine ETL-Plattform mit hoher Performance. So lassen sich zum Beispiel mit datenfabrik.dedupe in nur einer Stunde 15 Millionen Datensätze auf Dubletten untersuchen oder mit datenfabrik.address in über 2,5 Millionen Datensätzen die postalischen Angaben überprüfen, normieren und geokodieren. Durch die Zusammenarbeit mit weiteren namhaften Unternehmen, u. a. im Bereich des Change Data Capture, ermöglicht die datenfabrik GmbH & Co. KG ihren Kunden die Validierung, Bereinigung und Anreicherung ihrer Daten in nahezu Echtzeit. Die SSIS-Komponenten im Überblick • datenfabrik.address: Validiert, normiert und geokodiert Adressen mit Referenzdaten aus über 240 Ländern und Territorien. • datenfabrik.phone: Validiert und korrigiert Telefonnummern und Kundendaten. • datenfabrik.dedupe: Erkennt Dubletten schnell und erfolgreich mit einer einzigartigen Geschwindigkeit. • datenfabrik.merge: Verschmilzt Dubletten in strukturierten Datenbeständen (Record Linkage). • datenfabrik.deletix: Löscht Dubletten nach verschiedenen Prioritätsinformationen und erstellt Löschprotokolle. • datenfabrik.email: Validiert E-Mail-Adressen nach dem RFC 2822 und DNS Abfragen. • datenfabrik.gender: Ermittelt die korrekte Anrede anhand des Vornamens für unterschiedliche Länder. • datenfabrik.currency: Rechnet Beträge in verschiedene Währungen mit aktuellen und historischen Daten um. • datenfabrik.profiler: Führt ein durchgehendes Profiling und Monitoring der Daten innerhalb der SSIS Pakete durch. • datenfabrik.null: Löscht Leerzeichen am Anfang und Ende eines Strings und wandelt Leerstrings automatisch in DBNULL um. Dieses Produkt ist Freeware. Auf den folgenden Seiten finden Sie zu jedem Produkt eine Funktionsübersicht und ausgewählte Screenshots. I I www.datenfabrik.com Increases data quality In numerous data warehouse projects data quality is taking up a large proportion of both time and financial resources. And this is the right track. Consistently managed databases contribute significantly to success in marketing-or business intelligence strategies. As specialist for effective database management with many years of experience in mail-order business, the datenfabrik GmbH & Co. KG has developed high-performing components for Microsoft’s SQL Server Integration Services. In cooperation with well-known partner, the whole spectrum of data quality management is covered and customers are supported with implementation of compliance with legal regulations. To allocate information up-to-date and nearly in real time the datenfabrik GmbH & Co. KG employs a high performing ETL-platform by using the Integration Services. Based on this, datenfabrik.dedupe is able to detect duplicates within 15 million data records in only one hour and datenfabrik.address checks, validates and corrects 2.5 million data records at the same time. In collaboration with further nameable partners, which are, among others, working in the area of Change-DataCapture the datenfabrik GmbH & Co. KG enables customers to validate, clean and enhance their data in almost real time. Overview of SSIS-Components • datenfabrik.address: Validates, standardizes and geocodes addresses with reference data of more than 240 countries and territories. • datenfabrik.phone: Validates and corrects phone numbers and customer data. • datenfabrik.dedupe: Quickly and successfully detects duplicates with unrivalled speed. • datenfabrik.merge: Merges duplicates within structured data pools (record linkage). • datenfabrik.deletix: Deletes duplicates based on different priority information and builds detailed processing logs. • datenfabrik.email: Validates email addresses based on RFC 2822 and DNS queries. • datenfabrik.gender: Ascertains the correct salutation for various countries by using the first name. • datenfabrik.currency: Converts amounts of money into different currencies with current and historical data information. • datenfabrik.profiler: Executes ongoing data monitoring and profiling within the SSIS packages. • datenfabrik.null: Deletes spaces at the start and end of a string and translates empty strings automatically into DBNULL. This product is freeware. In following a functional overview as well as selected screenshots for each product are given. I I I datenfabrik.address Validiert Adressdaten Validates Address data Mit datenfabrik.address wird eine Komponente für die SQL Server Integration Services zur Validierung und Korrektur von Adressen mit Referenzdaten aus 240 Ländern weltweit angeboten. Für viele Länder stehen die Referenzdaten auf Straßenebene mit historischen Informationen zur Verfügung. Zusätzlich geokodiert die aktuelle Version der Komponente Adressen für über 25 Länder mit Referenzdaten auf Hausnummernebene. With datenfabrik.address a component for SQL Server Integration Services is provided to validate and correct addresses with reference data from 240 countries worldwide. Reference data at street level with historical information is available for many countries. The current version is also able to geocode addresses in more than 25 countries using reference data based on a level of house numbers. Funktionsübersicht • Suche nach richtiger Schreibweise mit phonetischen Algorithmen Functional Overview • Search for correct spelling using phonetic algorithms • Normierung von Straßennamen • Umbenennung von Straßennamen anhand historischer Informationen • Ergänzung mit Zusatzinformationen wie Landkreis und Bundesland • Anreicherung mit Geokoordinaten für mehr als 25 Länder Partner I V • Standardization of street names • Renaming of street names using historical information • Completion with additional information such as district and provinces • Data enhancement with geocodes for more than 25 countries www.datenfabrik.com Hinzufügen zusätzlicher Ausgabespalten wie Bundesland, Land oder Validierungsstatus. Addition of output columns such as Federal State, Country or Validation Status. Anpassen der Adressdaten für die Ausgabe an landesübliche Schreibweisen, Abkürzungen und Groß- und Kleinschreibungen. Adaption of address data for the output in country-specific spellings, abbreviations as well as upper and lower case rules. Bestimmung des Alphabets der Eingabesprache, der Granularität der Adressdaten sowie der Sprache für die Ausgabefelder. Definition of input language alphabet, granularity of the address data and language for output fields. Definition verschiedener länderspezifischer Referenzdatenbanken sowie genereller Einstellungen wie Cache-Größe und Speicherverwendung. Definition of different country-specific reference databases and general settings such as cache size and V memory use. datenfabrik.email Validiert E-Mail-Adressen Validates Email addresses Innerhalb des Datenflusses der SQL Server Integration Services validiert datenfabrik.email die E-Mail-Adressen des Kundendatenbestandes über die rudimentäre Prüfung auf Syntaxfehler hinaus. Within a SSIS data stream, datenfabrik.email validates email addresses of customer data lists beyond a rudimentary check for syntax errors. In the various check-modes the component identifies both; formal errors in the email addresses and non-existent top level domains, missing domains or non-available email servers. In verschiedenen Prüfmodi erkennt die Komponente sowohl formelle Fehler in der E-Mail-Adresse als auch nicht vorhandene Top-Level-Domains, fehlerhafte Gesamtdomains oder nicht verfügbare E-Mail-Server. Funktionsübersicht • Validierung der Syntax der E-Mail-Adressen nach Teilen der RFC 2822 Functional Overview • Validation of the syntax of email addresses according to parts of RFC 2822 • Validierung der Top-Level-Domain gegen eine lokale TLD-Liste • Validation of the top level domains through a local TLD-list • Validierung der gesamten Domains über den Standardoder einen frei zu definierenden DNS-Server • Validation of domains via the standard- or a freely definable DNS-Server • Validierung der E-Mail-Adresse per SMTP gegen einen E-Mail-Server (nur im Advanced Mode) • Validation of email addresses with SMTP through an email server (in Advanced Mode only) V I www.datenfabrik.com Validierung frei definierbarer Eingangsspalten. Zur Validierung werden Referenzdaten zur Prüfung der Top-LevelDomain sowie konfigurierbare DNS-Server hinzugezogen. Adding reference data to verify top level domains, as well as configurable DNS servers. Konfiguration von SMTP- und Proxy-Server zur Validierung der E-Mail-Adresse per SMTP gegen einen E-Mail-Server. Configuration of SMTP and Proxy-Server for validation of email addresses by using SMTP through an email server. V I I datenfabrik.gender Analysiert Anreden Analyses Salutations Mit datenfabrik.gender werden innerhalb der Integration Services Anreden anhand des Vornamens geprüft. So wird mit der SSIS Komponente gewährleistet, dass Kunden immer mit der richtigen Anrede kontaktiert werden. Within the Integration Services, datenfabrik.gender verifies the gender of customers by using the first name. Therefore the SSIS component ensures that customers are always contacted with the correct salutation. Funktionsübersicht • Bestimmung des Geschlechts anhand des Vornamens Functional Overview • Determination of gender using the first name • Zugriff auf umfangreiche Vornamensinformationen • Access to comprehensive first name information • Ausgabe eines vordefinierten Geschlechts bei nicht eindeutigen Angaben • Output of a pre-defined gender when the information is ambiguous • Suche über den zweiten Vornamen möglich • Search via middle names • Suche mit phonetischen Algorithmen möglich • Search with phonetic algorithms V I I I www.datenfabrik.com Konfiguration der Ein- und Ausgabespalten sowie der länderspezifischen Referenzdaten. Configuration of input and output columns and countryspecific reference data. Optionen zur Verarbeitung der Vornamen und Konfiguration der Ausgabewerte. Options for processing of first names and configuration of output values. I X datenfabrik.phone Validiert Telefondaten Validates Phone Datan Mit datenfabrik.phone werden Telefon-, Fax- und Mobilfunknummern innerhalb des Datenflusses der SQL Server Integration Services validiert, korrigiert und in eine einheitliche Schreibweise überführt. Es besteht die Möglichkeit, Kundendaten anhand der Telefonnummer zu prüfen, zu korrigieren und mit weiteren Informationen aus dem Telefonbuch zu ergänzen. The datenfabrik.phone component is used to validate, correct and standardize phone, fax and mobile phone numbers within the data flow of the SQL Server Integration Services. It is possible to verify and correct customer data using the phone number and add further information from phone book. Funktionsübersicht • Validierung von Telefonnummern anhand gegebener Daten Functional Overview • Validation of phone numbers using given data • Validierung von Telefonnummern über die Rückwärtssuche • Validation of phone numbers using a reverse search • Validierung von Kundendaten mit aktuellen Telefonnummern, Faxnummern oder Handynummern • Normierung von Telefonnummern • Validation of customer data with current phone, fax and mobile phone numbers • Standardization of phone numbers • Ergänzung um Zusatzinformationen wie Brancheneinträge • Supplementation with extra information such as sector entries • Suche mit phonetischen Algorithmen • Search with phonetic algorithms Partner X www.datenfabrik.com Definition verschiedener Suchumgebungen und Speicherung für eine zentrale Verwaltung. Definition of various search environments and saving for central administration purposes. Verbindungsparamter zu einem klickTel Server und Definition der klickTel Server Version. Connection parameters to a klickTel server and definition of the klickTel server version. X I datenfabrik.currency Rechnet Währungen um Converts currencies Mit datenfabrik.currency werden Währungen aus verschiedenen Ländern direkt in einheitliche Zielwährungen umgerechnet. Die SSIS Komponente greift dabei auf historische Informationen zurück und rechnet nachträglich Beträge mit dem zum Zeitpunkt der Rechnungsstellung gültigen Währungskurs um. With datenfabrik.currency, currencies from different countries can be directly converted into standardized target currencies. The SSIS components therefore can access historical information and retrospectively convert amounts with the valid exchange rate at the time the invoice was issued. Funktionsübersicht • Umrechnung von Währungen in eine einheitliche Zielwährung Functional Overview • Conversion of currencies into a standardized target currency • Zugriff auf historische Informationen • Access to historical information • Umrechnungskurse der Europäischen Zentral Bank mit 37 Währungen im Standard Datenpool • Conversion rates of the European Central Bank with 37 currencies in standard data pool • Ergänzung von zusätzlichen Währungsinformationen • Addition of extra currency information • Zugriff auf stundengenaue Daten durch weitere externe Datafeeds möglich • Hourly access to data through additional external data feeds possible X I I www.datenfabrik.com Konfiguration der Ein- und Ausgabespalten sowie der länderspezifischen Referenzdaten. Quell- und Zielwährung werden über Variablen, Eingabespalten oder einen festen Wert definiert. Configuration of input and output columns and country specific reference data. Source and target currencies are defined as variables, through input columns or as fixed values. Konfiguration des Datums des zu verwendenden Umrechnungskurses sowie Definition eines Ausweichdatums. Defining the date of currency conversion. X I I I datenfabrik.dedupe Findet Dubletten Detects Duplicates Bei dem Zusammenführen von Datenbeständen aus unterschiedlichen Systemen entstehen doppelte Datensätze, die sich nur schwer automatisiert finden lassen. datenfabrik.dedupe ist eine SSIS Datenflusskomponente zur Suche von Dubletten mit phonetischen Algorithmen. Die Komponente findet extrem schnell mehrfach vorhandene Datensätze in Adressbeständen und bietet eine einzigartige Symbiose von Treffergenauigkeit und Performance. Für den Abgleich von 15 Millionen Datensätzen benötigt datenfabrik.dedupe weniger als eine Stunde. When merging data pools from different systems, duplicated data records, which are difficult to find in automated processes, arise. With datenfabrik.dedupe a SSIS data flow component to search for duplicates with phonetic algorithms is provided. The component quickly finds redundant data records in address pools and offers a unique symbiosis of hit accuracy and performance. It takes less than one hour to process 15 million data records with datenfabrik.dedupe. Funktionsübersicht • Dublettensuche mit phonetischen Algorithmen Functional Overview • Duplicate search with phonetic algorithms • Definition beliebiger Sortierschlüssel, der Suchumgebung (Sorted Neighbourhood) und beliebiger SuchParametersets • Definition of sort keys, the search environment (sorted neighborhood) and any search parametersets • Minimaler Score pro Spalte und pro Parameterset • Filter zur Normalisierung von Namen und Straßen • Partielle Dublettensuche • Speichern und Laden von Parametersets X I V • Minimum score per column and parameterset • Filter for the standardization of names and streets • Partial duplicate search • Saving and loading of parametersets www.datenfabrik.com Konfiguration der verschiedenen Parameter zur Dublettensuche, z. B. Suchumgebungen, Sortierschlüssel, temporärer SQL Server oder partielle Dublettensuche. Configuration of different parameters for duplicate search, e. g. search environments, sort keys, temporary SQL Servers or partial duplicate search. Definition von Parametersets zur Dublettensuche unter Angabe verschiedener Schwellenwerte, Kreuzprüfungen und Normalisierungsfilter. Definition of parametersets for search of duplicates using different threshold values, cross-checks and normalization filter. Konfiguration von Sortierschlüsseln zur Definition verschiedener Suchumgebungen über beliebige Eingangsspalten. Configuration of sort keys to define different search environments by using definable input columns. Einstellungen zur Normalisierung der Daten über XMLDateien oder Datenbanken. Settings to normalize data via XML files or databases. X V datenfabrik.deletix Löscht Dubletten Deletes duplicates Die Komponente datenfabrik.deletix ermöglicht das Löschen von Dubletten mit verschiedenen Prioritäten und Sperrvermerken. Die Verarbeitung verschiedener Quellen kann lückenlos nachvollzogen und dokumentiert werden. The SSIS component datenfabrik.deletix facilitates deleting duplicated data records with different priorities and markings for blocking. The processing of different sources can be easily reproduced and documented without any gaps. Funktionsübersicht • Kennzeichnung verschiedener Datenquellen als Sperrdateien Functional Overview • Marking of different sources as blocking files • Kennzeichnung verschiedener Datenquellen mit unterschiedlichen Prioritäten • Löschen von Dubletten nach vergebenen Sperr- und Prioritätsangaben • Erstellung von Reports im TIFF-, PDF- oder Excel-Format mit detaillierten Informationen zur Verarbeitung • Erstellung einer Eliminationsmatrix • Erstellung einer Überschneidungsmatrix X V I • Marking of different sources with different priorities • Deletion of duplicates according to assigned blocking and priority information • Creation of reports in TIFF, PDF or Excel files with detailed information about the processing • Creation of an elimination matrix • Creation of an overlapping matrix www.datenfabrik.com Dubletten werden innerhalb der Komponente direkt gelöscht oder als zusätzliche Ausgabe im Datenfluss definiert. Duplicate data records can directly be deleted within the component or are defined as an additional output in the data stream. Ausgabe verschiedener Statistiken (Abgleichmatrix) der gefundenen Dubletten als Report oder Speicherung der Daten in einem globalen Repository. Output of various statistics (matrix tables) of the duplicates as report or archiving data in a global repository. Angabe von Name und Beschreibung der durchgeführten Aktion erleichtert die Übersicht verschiedener Reports und ermöglicht eine verständliche, firmenweite Nutzung. Providing name and description of the processes facilitates the overview of various reports and enables a coherent, company-wide usage. X V I I datenfabrik.merge Verschmilzt Dubletten Merges Duplicates Die SSIS Komponente datenfabrik.merge verschmilzt Dubletten innerhalb von strukturierten Daten. Doppelte Daten werden anhand eines Gruppierungsschlüssels zusammengefasst und zu einem einzigen Datensatz verschmolzen. Die Ausgabespalten werden dabei über verschiedene Aggregate, mathematische Funktionen oder durch das Auffüllen aus anderen Datensätzen innerhalb der Gruppierung erstellt. Dieses auch Record Linkage genannte Verfahren eignet sich besonders, mit datenfabrik.dedupe erkannte Dubletten weiterzuverarbeiten. The SSIS component datenfabrik.merge merges duplicates within structured data. Duplicate data is linked using a grouping key and merged into a single data record. The output columns are compiled using different aggregates, mathematical functions or they are filled from other data records within the grouping. This process is also called record linkage and is particularly suitable for further processing of duplicates recognised in datenfabrik.dedupe. Funktionsübersicht • Gruppierung der Eingabedaten über einen speziellen Schlüssel Functional Overview • Grouping of input data via a special key • Berechnung neuer Spalten über Aggregate und mathematische Funktionen • Bildung neuer Spalten durch String-Funktionen • Neusortierung der Daten innerhalb spezieller Funktionen • Mehrfach vorkommende Datensätze werden zu einem Datensatz verschmolzen X V I I I • Calculation of new columns using aggregates and mathematical functions • Creation of new columns through string functions • Resorting of data within special functions • Repeatedly occurring data is merged into one data record www.datenfabrik.com Ausgabespalten werden über verschiedene Aggregate und mathematische Funktionen erstellt oder mit Werten aus einer Gruppierung aufgefüllt. Output columns are compiled using different aggregates and mathematical functions or are filled with values from a grouping. Von der globalen Sortierung abweichende Anordnungen der Daten für bestimmte Eingangsspalten werden definiert. Sorting of input data, which deflects from global order, can be defined for different input columns. X I X datenfabrik.profiler Analysiert Daten Analyses data datenfabrik.profiler prüft Daten innerhalb des Datenflusses gegen unterschiedlichste, frei zu definierende Regeln. Die Ergebnisse der Prüfungen werden in einem zentralen Repository gesammelt, wodurch ein umfangreiches Monitoring innerhalb der Integration Services ermöglicht wird. With datenfabrik.profiler, data within the data stream is verified through different, freely definable rules. The results of checks are collected in a central repository, which enables comprehensive monitoring within Integration Services. Funktionsübersicht • Analyse der Daten mit umfangreichen Regeltypen, wie Data Dictionaries, Reguläre Ausdrücke oder Spaltenmusterprofile Functional Overview • Analysis of the data with extensive rule types such as data dictionaries, regular expressions or column sample profiles • Speicherung der Ergebnisse und Daten in einem zentralen Repository • Archiving the results and data in a central repository • Historisierung einzelner Ausführungen im Repository • Benachrichtigung bei Überschreitung/Unterschreitung einzelner Schwellenwerte pro Regel X X • Creation of an execution history in the repository • Notification in case of over/under stepping individual threshold values per rule www.datenfabrik.com Analyse der Daten innerhalb des Datenflusses über unterschiedlichste, auch frei definierbare, Regeln. Analysis within the data stream by using different and freely definable rules. Speicherung der Ergebnisse in einem zentralen Repository. Die Daten können über das externe Profiler Administrations Tool grafisch aufbereitet angezeigt werden. Saving results in central repository. Data can be displayed graphically formatted trough the external Profiler Administration Tool. Anwendung unterschiedlicher Regeln auf wählbare Eingangsspalten. Applying different rules on definable input columns. Konfiguration unterschiedlicher Regeln für ausgewählte Eingangsspalten. Configuration of different rules for selectable input columns. X X I datenfabrik.null Bereinigt Zeichenketten Adjusts strings datenfabrik.null ist eine Freeware Komponente für die SQL Server Integration Services. Sie schneidet bei allen eingehenden String-Daten Leerzeichen am Anfang oder am Ende ab und wandelt Leerstrings automatisch in NULL Werte (DBNULL) um. datenfabrik.null is a freeware component for the SQL Server Integration Services. It trims spaces at start and end of all incoming string data and sets empty strings automatically to NULL values (DBNULL). Funktionsübersicht • Löschung von Leerzeichen am Anfang und am Ende eines Strings Functional Overview • Deletes spaces at start and end of a string • Setzen von Leerstrings automatisch als DBNULL • Freeware X X I I • Sets empty strings automatically to DBNULL • Freeware www.datenfabrik.com Coming together is a beginning, keeping together is progress, working together is success. Henry Ford X X I I I 023510515 • www.menke.de • www.fotolia.de datenfabrik GmbH & Co. KG Siebenmorgenweg 6 – 8 D.53229 Bonn Fon +49 . 228 . 9 02 99 0 www.datenfabrik.com