A LT R A N , G LO BA L L EA D E R I N I N N OVAT I O N DATENQUALITÄT UND DATENBEREINIGUNG Dezember 2016 1 Datenqualität und Datenbereinigung Wir unterscheiden zwischen: • Data Quality Services ◦ Data Cleansing ◦ Data Matching • Master Data Services Beispiel: Es gibt drei unterschiedliche Adressen für einen Kunden • Data Quality Services stellen sicher, dass es tatsächliche, valide Adressen sind ◦ wie zB, dass Stadt x tatsächlich in Bundesland y ist • Master Data Services sagen mir in welcher der drei Städte der Kunde tatsächlich wohnt • Master Data Services operieren an der jeweiligen Entität ◦ das ist die definitive Version von dieser Entität • Data Quality Services operieren auf Spaltenebene und validieren mir ob das korrekte Werte sind 2 Das Data Quality Problem • Geschäftliche Entscheidungen sind von vertrauenswürdigen Daten abhängig • Probleme in der Datenqualität können zu falschem Reporting und Analysen führen ◦ Ungültige Daten Werte (zB „Oberöstereich“) ◦ Inkonsistenzen (zB „Oberösterreich“ und „OÖ“) ◦ Doppelte „Business Entities“ (zB „Thomas Renner“, „Tom Renner“, „T Renner“) • Data Quality Services ist eine knowledge-base Lösung für ◦ Data Cleansing (neu, ungültig, korrigiert, richtig) ◦ Data Matching (exakte Übereinstimmung, näherungsweise Übereinstimmung) 3 Knowledge Bases und Domains • Knowledge Base: ◦ Ein Data Steward der die Daten versteht und weiß ob Werte valide sind oder was typische Fehler sind (zB St. Plöten > St. Pölten) ◦ Knowledge Discovery – Hilfe beim Erkennen der Daten und dadurch beim Regel erstellen ◦ Domain validation rules (zB Postleitzahl hat 4 Stellen in Österreich und 5 in Deutschland) ◦ Domain correction rules(zB OÖ = Oberösterreich) ◦ Matching rules (Wie wird Gleichheit von Datensätzen erkannt) • Domains: ◦ Spezifisch für ein Datenfeld (typischerweise Spalten) ◦ Enthält Werte und Validierungsregeln − valid (zB „Oberösterreich“ und „OÖ“ für ein Bundesland) − invalid (zB „3100“ für eine Stadt) −Error ( zB „Oberöstereich“ für ein Bundesland) ◦ Definiert Regeln um Werte zu führenden Werten zu korrigieren 4 Data Cleansing Projekte 1. 2. 3. 4. Knowledege base aussuchen Daten Spalten mit Domains verbinden Vorschläge und Korrekturen überprüfen Ergebnisse exportieren Wenn Daten regelmäßig importiert werden ist auch eine Integration in den Importprozess der SQL Server Integration Services (SSIS) möglich DQS Cleansing Task 5 Data Matching • Definieren von „matching rules“ für Geschäfts-Entitäten in einer „matching policy“ ◦ Hier kann man mögliche Übereinstimmungen mit einer Wahrscheinlichkeit bewerten und gemäß definierter Schwellwerten auswerfen • Regeln vergleichen Entitäten mit Domains ◦ Similarity: Ähnliche oder exakte Übereinstimmungen ◦ Weight: Prozentsatz wenn es eine Übereinstimmung gibt ◦ Prerequisites: obligatorische Übereinstimmungsregel zwischen Domäne und Entität Wenn die kombinierte Gewichtung von allen Übereinstimmungen einen definierten Schwellenwert übersteigt dann sind die Entitäten Duplikate! 6 DQS Prozess 7 Vorgehensweise / Projektstruktur Projektmanagement 8 Infrastruktur Kickoff Workshop Ist Situation erheben Projekt planen Möglichkeiten aufzeigen Projekt controlling Projekt abschließen Analyse Knowledge Base Konzeption Implementierung Use Cases definieren Datenzugriff implementieren Domains definieren Data Quality KPIs festlegen Datenkorrektur implementieren Infrastruktur Entscheidung getroffen Referenzdaten aufbauen Reports definieren Reports erstellen Infrastruktur ausbauen Knowledge Discovery durchführen Rollenbeschreibungen erstellen Infrastruktur betreiben Analyse abgeschlossen aufbauen INNOVATION MAKERS