<Insert Picture Here> Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle <Insert Picture Here> Data Quality Data Profiling Standardisierung Match/Merge Rules „Es ist leichter, Datenqualitätsprobleme zu lösen, als mit Ihnen zu leben.“ (Albert Einstein) Ein Dashboard mit vielen Charts Warum ist ein Tooleinsatz bei Datenqualitätsanalysen sinnvoll? • Das meiste geht auch ohne Tool, allerdings mühsam Functional Dependencies Der Fehler steckt im Detail Fehler stecken im Detail Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Sparten Gruppen Produkte Fehlerhafte Spartenkennzeichnung von Gruppen Orphans ohne Parents Falsche Statuskennzeichnung von Finanzprodukten Fehlerhafte Verschlüsselung von Artikel- und Produkten Bestellung Position Doppelte Produktnummern KundenStamm Fehlerhafte , nicht rechenbare Einzelpreiswerte Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Aspekte der Datenqualität Korrekt Stimmig Vollständig Brauchbarkeit der Daten! Dokumentiert Redundanzfrei Aktuell Verfügbar (Access) Nützlich (TCO) Handhabbar Die Kosten der schlechten Daten Data Profiling • Software – gestütztes Erkennen von Anomalien in Datenbeständen (The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality) • Interaktiver Analyse-Vorgang • Bestandteil von Oracle Warehouse Builder seit 2006 Methoden und Hilfsmittel bei Datenqualitätsanalysen • Methoden • Attribut-Klassifizierung (Namen) • Kategorisierung von Qualitätsregeln • Datenmodellierung • Vorgehensmodell Brain-Ware • Tools • • • • • • Data Profiling Tool Data Rules Mechanismus Deduplizierungs-Feature Standardisierung ETL-Tool Datenbank OWB Oracle Data Quality / Data Profiling • Standardanalysen • • • • • • • • Unique Keys Functional Dependencies Relationships Domains Redundant Columns Patterns, Types Statistiken Six Sigma • Rules (Business-/ IT-Rules) • Generierung von Korrekturen • Auditing • Eingebettet in ein ETL-Tool • hohe Flexibilität beim Bereitstellen von Daten • Direktes Anwenden erkannter Regeln für eine spätere Datenaufbereitung und Minitoring • Ablaufumgebung ist die Datenbank • Datennähe Starten eines GenerierungProfiling-Laufs Rule Starten einer CorrectionMapping-Generierung Auswahl und Ergebnisansicht Methoden Die Tabellen, die zu dem Analysefukus gehören Tabellen-Darstellung Chart-Darstellung Feintuning zu den Analysemethoden Drill-Werte Operative Datensätze AnalyseJobProtokolle Aktivierbare Business Rules Wertebereichsanalysen (Domain) Beispiel: Marketingkampagnen • 5 Millionen Privatkunden-Kontaktdaten • Davon 372112 unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? • Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu! Beziehungen (Relational) Beziehungen (Orphans / Childless) Formate (Data Type) ? ? ? Wertmustererkennung (Pattern) Definieren von Regelwerken (Logical / Business Data Rules) Korrekt: Zusammen 100% (Alle Fälle erfasst) Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, muß 0 sein Korrekt, das sind die richtigen Werte Korrekt, das sind richtige Werte Problem: kein Schlüsselfeld ist gepflegt Korrekt, muß 0 sein Korrekt: Zusammen 100%. (Alle Fälle erfasst) Korrekt, muß 0 sein Problem Korrekt Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ? Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse Prüfung der aufgestellten Geschäftsregeln Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit Korrekt: Zusammen 100% (Alle Fälle erfasst) Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, muß 0 sein Korrekt, das sind die richtigen Werte Korrekt, das sind richtige Werte Problem: kein Schlüsselfeld ist gepflegt Korrekt, muß 0 sein Korrekt: Zusammen 100%. (Alle Fälle erfasst) Korrekt, muß 0 sein Problem Korrekt Analyseumgebung LDAP DBMS_LDAP non Oracle DB2, SQL Server Informix, Teradata Meta Daten Repository Gateway / ODBC / FTP Oracle 9i / 10g / 11g SAP Integrator SAP R/3 Source Stage Siebel CRM Oracle eBusiness Text / XML Profiling Stage Analyse Datenbank Direct Path DBLink Transportable Modules Data Quality Monitoring im DWH Data Quality Dashboards Data Profiling im Data Warehouse hat zwei Hauptaufgaben 1. Garantieren von korrekten Berichten 2. Minimieren von Projektkosten Wo stecken die Aufwende? Traditionelle Projektaufwand bei Neuentwicklung Datenanalyse 50% Front End 20% 5 % Arbeit mit ETL Tool 10 % Entwurf Transformationen 15 %Daten Modellierung + Systemdesign Korrektur Phase 1 ?? Korrektur Phase 2 ?? Wartung ??