datenfabrik.dedupe Findet Dubletten Detects Duplicates

Werbung
datenfabrik.dedupe
Findet Dubletten
Detects Duplicates
Bei dem Zusammenführen von Datenbeständen aus
unterschiedlichen Systemen entstehen doppelte Datensätze, die sich nur schwer automatisiert finden lassen.
datenfabrik.dedupe ist eine SSIS Datenflusskomponente
zur Suche von Dubletten mit phonetischen Algorithmen.
Die Komponente findet extrem schnell mehrfach vorhandene Datensätze in Adressbeständen und bietet eine
einzigartige Symbiose von Treffergenauigkeit und Performance. Für den Abgleich von 15 Millionen Datensätzen
benötigt datenfabrik.dedupe weniger als eine Stunde.
When merging data pools from different systems, duplicated data records, which are difficult to find in automated
processes, arise. With datenfabrik.dedupe a SSIS data
flow component to search for duplicates with phonetic
algorithms is provided. The component quickly finds redundant data records in address pools and offers a unique
symbiosis of hit accuracy and performance. It takes less
than one hour to process 15 million data records with
datenfabrik.dedupe.
Funktionsübersicht
• Dublettensuche mit phonetischen Algorithmen
Functional Overview
• Duplicate search with phonetic algorithms
• Definition beliebiger Sortierschlüssel, der Suchumgebung (Sorted Neighbourhood) und beliebiger SuchParametersets
• Definition of sort keys, the search environment (sorted
neighborhood) and any search parametersets
• Minimaler Score pro Spalte und pro Parameterset
• Filter zur Normalisierung von Namen und Straßen
• Partielle Dublettensuche
• Speichern und Laden von Parametersets
X
I
V
• Minimum score per column and parameterset
• Filter for the standardization of names and streets
• Partial duplicate search
• Saving and loading of parametersets
www.datenfabrik.com
Konfiguration der verschiedenen Parameter zur Dublettensuche, z. B. Suchumgebungen, Sortierschlüssel, temporärer SQL Server oder partielle Dublettensuche.
Configuration of different parameters for duplicate search,
e. g. search environments, sort keys, temporary SQL Servers or partial duplicate search.
Definition von Parametersets zur Dublettensuche unter
Angabe verschiedener Schwellenwerte, Kreuzprüfungen
und Normalisierungsfilter.
Definition of parametersets for search of duplicates using
different threshold values, cross-checks and normalization
filter.
Konfiguration von Sortierschlüsseln zur Definition verschiedener Suchumgebungen über beliebige Eingangsspalten.
Configuration of sort keys to define different search environments by using definable input columns.
Einstellungen zur Normalisierung der Daten über XMLDateien oder Datenbanken.
Settings to normalize data via XML files or databases.
X
V
Herunterladen