Data Quality Service Dienstleistungsangebot

Werbung
A LT R A N , G LO BA L L EA D E R
I N I N N OVAT I O N
DATENQUALITÄT UND DATENBEREINIGUNG
Dezember
2016
1
Datenqualität und Datenbereinigung
Wir unterscheiden zwischen:
• Data Quality Services
◦ Data Cleansing
◦ Data Matching
• Master Data Services
Beispiel: Es gibt drei unterschiedliche Adressen für einen Kunden
• Data Quality Services stellen sicher, dass es tatsächliche, valide Adressen sind
◦ wie zB, dass Stadt x tatsächlich in Bundesland y ist
• Master Data Services sagen mir in welcher der drei Städte der Kunde tatsächlich wohnt
• Master Data Services operieren an der jeweiligen Entität
◦ das ist die definitive Version von dieser Entität
• Data Quality Services operieren auf Spaltenebene und validieren mir ob das korrekte Werte sind
2
Das Data Quality Problem
• Geschäftliche Entscheidungen sind von vertrauenswürdigen Daten abhängig
• Probleme in der Datenqualität können zu falschem Reporting und Analysen führen
◦ Ungültige Daten Werte (zB „Oberöstereich“)
◦ Inkonsistenzen (zB „Oberösterreich“ und „OÖ“)
◦ Doppelte „Business Entities“ (zB „Thomas Renner“, „Tom Renner“, „T Renner“)
• Data Quality Services ist eine knowledge-base Lösung für
◦ Data Cleansing (neu, ungültig, korrigiert, richtig)
◦ Data Matching (exakte Übereinstimmung, näherungsweise Übereinstimmung)
3
Knowledge Bases und Domains
• Knowledge Base:
◦ Ein Data Steward der die Daten versteht und weiß ob Werte valide sind
oder was typische Fehler sind (zB St. Plöten > St. Pölten)
◦ Knowledge Discovery – Hilfe beim Erkennen der Daten und dadurch beim
Regel erstellen
◦ Domain validation rules (zB Postleitzahl hat 4 Stellen in Österreich und 5 in
Deutschland)
◦ Domain correction rules(zB OÖ = Oberösterreich)
◦ Matching rules (Wie wird Gleichheit von Datensätzen erkannt)
• Domains:
◦ Spezifisch für ein Datenfeld (typischerweise Spalten)
◦ Enthält Werte und Validierungsregeln
− valid (zB „Oberösterreich“ und „OÖ“ für ein Bundesland)
− invalid (zB „3100“ für eine Stadt)
−Error ( zB „Oberöstereich“ für ein Bundesland)
◦ Definiert Regeln um Werte zu führenden Werten zu korrigieren
4
Data Cleansing Projekte
1.
2.
3.
4.
Knowledege base aussuchen
Daten Spalten mit Domains verbinden
Vorschläge und Korrekturen überprüfen
Ergebnisse exportieren
Wenn Daten regelmäßig importiert werden ist auch eine Integration in den
Importprozess der SQL Server Integration Services (SSIS) möglich
DQS Cleansing Task
5
Data Matching
• Definieren von „matching rules“ für Geschäfts-Entitäten in einer „matching policy“
◦ Hier kann man mögliche Übereinstimmungen mit einer Wahrscheinlichkeit bewerten und gemäß
definierter Schwellwerten auswerfen
• Regeln vergleichen Entitäten mit Domains
◦ Similarity: Ähnliche oder exakte Übereinstimmungen
◦ Weight: Prozentsatz wenn es eine Übereinstimmung gibt
◦ Prerequisites: obligatorische Übereinstimmungsregel zwischen Domäne und Entität
Wenn die kombinierte Gewichtung von allen Übereinstimmungen einen definierten Schwellenwert
übersteigt dann sind die Entitäten Duplikate!
6
DQS Prozess
7
Vorgehensweise / Projektstruktur
Projektmanagement
8
Infrastruktur
Kickoff
Workshop
Ist Situation
erheben
Projekt planen
Möglichkeiten
aufzeigen
Projekt
controlling
Projekt
abschließen
Analyse
Knowledge
Base
Konzeption
Implementierung
Use Cases
definieren
Datenzugriff
implementieren
Domains
definieren
Data Quality
KPIs festlegen
Datenkorrektur
implementieren
Infrastruktur
Entscheidung
getroffen
Referenzdaten
aufbauen
Reports
definieren
Reports
erstellen
Infrastruktur
ausbauen
Knowledge
Discovery
durchführen
Rollenbeschreibungen
erstellen
Infrastruktur
betreiben
Analyse
abgeschlossen
aufbauen
INNOVATION MAKERS
Herunterladen