Oracle Warehouse Technologie Single-Engine-Based-Data-Warehouse Data Profiling mit Oracle Warehouse Builder Datenqualität bei der Integration von Unternehmensdaten Erste praktische Erfahrungen anhand von Praxisanforderungen Alfred Schlaucher Leitender Berater Business Integration & Data Warehouse ORACLE Deutschland GmbH Tel.: 040 / 89091-132 Email: [email protected] Datenqualität gewinnen mit Oracle Warehouse Builder - Data Profiling Schlechte Daten „Ein Klagelied“ (oder sollten wir sie verschweigen?) Beispielhafter Ablauf einer Data Profiling Analyse - ein Beispiel Erfahrungen / Abgrenzungen Es entstehen täglich mehr schlechte Daten, als wir denken Eingabefehler in Masken vertippt Dateneingabeprozesse lückenhaft Daten nicht zur Hand wenn sie zum Eingeben gebraucht werden Keine Daten möglich sinnlose Eingabekombination Mutwillige Fehler Transaktion „die müssen nicht alles wissen“ Systembedingte Fehler Datenbank Unvollständige Transaktion Datenübertragung abgebrochen Replikat Versteckte Kosten durch schlechte Datenqualität Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain Datenqualität bezogen auf den Warehousing – Prozess Unterschiedliche Daten und Fehlerquellen • Heterogene Datenmodelle / Konsistenz / Homonyme / Synonyme • Kontinuität des Ladevorgangs / Vollständigkeit • Widerspruchsfreiheit zwischen den Quellen CRM Data Marts SCM Bereitstellung BI Tool A Data Warehouse BI Tool B ERP Konsolidierung Matadaten Konsolidierter Datenbereich •Eindeutige Datenobjekte Beschreibungen •Homonyme / Synonyme •Anwendungsneutral BI Tool C ? „Proaktives Qualitätsmanagement“ Designqualität Ausführungsqualität Total Quality Management Total Quality Control Qualitätssicherung Qualitätskontrolle Qualitätsplanung Strategieen Erwartungen Planung Qualitätslenkung Qualitätssicherung Kontinuierliche Qualitätsverbesserung Umsetzung Einhaltung der Vorgaben Hilfsmittel Strukturelle Unterstützung Weiterentwicklung der Qualitätsstandards Entwicklungsprojekte OWB: Integriertes Vorgehen in der Datenbeschaffung Data Profiling Rules Rules Data Quality Rules ETL Oracle Warehouse Builder Was wird geprüft Datenqualität gewinnen mit Oracle Warehouse Builder - Data Profiling Schlechte Daten „Ein Klagelied“ (oder sollten wir sie verschweigen?) Beispielhafter Ablauf einer Data Profiling Analyse - ein Beispiel Erfahrungen / Abgrenzungen Das Beispiel Ablauf Data Profiling Analyse Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Environment - Datenmengen - Rechner - erste Überraschungen Analysieren der Daten - „Augenfällige“ Erkenntnisse -> der erste Schuss - „Dinge, die sofort auffallen“ -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Zurechtschneiden der Daten Ableiten von Regeln und Korrekturen - Daten aufbrechen - Teilmengen - Sampling - Mehrfach - Profiling - Einsatz von ETL - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch 1 2 3 4 5 6 7 X Korrekte Daten Wo anfangen Eignen sich alle Problemstellungen? Beispiel Wahlweise vertauschte Spalten Sind die Datenstrukturen bekannt? Datenmodelle IT - Abteilung Sind die erwarteten Regeln bekannt? Fachanwenderwissen Geschäftsprozesse Erfahrung: Nicht alle Daten und Problemstellungen sind „Data Profiling – tauglich“ Environment non Oracle DB2 SQL Server Informix Teradata Gateway / ODBC / FTP Oracle 9i / 10g SAP SAP Integrator Source Schema Profiling Stage Oracle Source Schema Transportable Module Möglichst innerhalb einer Datenbank (kein DBLINK) Quellsystemtabellen sollten mit PARALLEL gekennzeichnet sein (Grad nicht festlegen) Bei operativen Systemen, die nicht modifiziert werden können -> zu Analysezwecken „Transportable Modules anwenden“ SGA > 500MB, wenn möglich 2-3 GB buffer cache hit ratio im Bereich von 95-99 % External Table RAC Erfahrung: Laptop reicht nicht Profiling Performance 10 Zeilen 20 Zeilen 10 Spalten 10 x 10 = 100 5 x 20 = 100 5 Spalten Object Level Column Level An dieser Stelle erfolgt ein Kundenbeispiel als Demo Ergebnisblatt (Beispiele) Varianten von Prüfungen Attribut – bezogen Not Null / Pflichtfelder Formatangaben Check Constraint Wertbereiche Ober-/Untergrenzen / Wertelisten Satz – bezogen (Tupel) Abhängigkeiten von Werten in anderen Attributen desselben Satzes Satzübergreifend (Relationen) Primary Key / Eindeutigkeit Aggregat – Bedingungen Ober- Untergrenzen von Summen Anzahl Sätze pro Intervall usw. Rekursive Zusammenhänge Verweise auf andere Sätze derselben Tabelle (Relation) Tabellenübergreifende (Interrelational) Foreign Key Aggregat – Bedingungen Ober- Untergrenzen von Summen Anzahl Sätze pro Intervall usw. Rekursive Zusammenhänge Verweise auf Sätze einer anderen Tabelle (Relation) Zeit – bezogen (Tupel) Zeitinvariante Inhalte Anz. Bundesländer Zeitabhängige Veränderungen Über die Zeit mit anderen Daten korrelierende Feldinhalte Verteilungs – bezogen Arithmetische Mittel Varianz / Standardabweichungen Qualitätsmerkmale und Mengen Datenqualität gewinnen mit Oracle Warehouse Builder - Data Profiling Schlechte Daten „Ein Klagelied“ (oder sollten wir sie verschweigen?) Beispielhafter Ablauf einer Data Profiling Analyse - ein Beispiel Erfahrungen / Abgrenzungen Erfahrungen während der Arbeit Data Profiling zergliedert sich mehrere Steps Ähnlich wie bei Data Mining Verfahren ergeben sich erst im Verlauf des Projektes neue Aspekte und Fragestellungen, die den weiteren Verlauf bestimmen können Zurechtschneiden der Daten Entwurf einer Analysestrategie Die Masse der Prüfungsergebnisse könnte auch durch direkte SQL – Abfragen ermittelt werden aber... ....man kommt nicht drauf Gleichzeitiges Betrachten / Erkennen von mehreren Spalten automatisches, batchgetriebenes, gleichzeitiges Suchen von Aspekten Ansonsten müssten Prüfungen einzeln, Attribut – weise erfolgen viele manuelle SQL – Statements auf vermutete Fehler Erfahrungen während der Arbeit Systemfehler erkennen durch gleichzeitiges Betrachten von Fehlern Vergleichen von Anzahl Visuelle Darstellungen geben die Möglichkeit des intuitiven Erfassens von potentiellen Problemen und Zusammenhängen Die Ergebnisse sind automatisch dokumentiert und unterstützen damit das Qualitätsmanagement. Die Einbettung in das ETL – Tool macht sich positiv bemerkbar Zurechtschneiden der Daten Umsetzen der gefundenen Ergebnisse in Korrekturläufe Erfahrungen während der Arbeit Hardware – Umgebung muss stimmen Die Analyse – Umgebung und die Datenbereitstellung muss geplant werden Komplexere Abhängigkeiten z. B. zeilenübergreifende Zusammenhänge bedürfen zusätzlicher Prüflogik. Datenqualität mit Oracle Warehouse Builder Weitere Informationen: [email protected] Tel.: 040 / 89091-132