Datenqualitaet_10_2005_Doag_Kurz

Werbung
Oracle Warehouse Technologie
Single-Engine-Based-Data-Warehouse
Data Profiling mit
Oracle Warehouse Builder
Datenqualität bei der Integration von
Unternehmensdaten
Erste praktische
Erfahrungen
anhand von
Praxisanforderungen
Alfred Schlaucher
Leitender Berater
Business Integration & Data Warehouse
ORACLE Deutschland GmbH
Tel.: 040 / 89091-132
Email: [email protected]
Datenqualität gewinnen mit
Oracle Warehouse Builder
- Data Profiling
 Schlechte Daten „Ein Klagelied“
(oder sollten wir sie verschweigen?)
 Beispielhafter Ablauf einer
Data Profiling Analyse
- ein Beispiel
 Erfahrungen / Abgrenzungen
Es entstehen täglich mehr schlechte
Daten, als wir denken





Eingabefehler in Masken
vertippt
Dateneingabeprozesse lückenhaft
Daten nicht zur Hand wenn sie zum Eingeben gebraucht werden
Keine Daten möglich
sinnlose Eingabekombination
Mutwillige Fehler
Transaktion
„die müssen nicht alles wissen“
Systembedingte Fehler
Datenbank
Unvollständige Transaktion
Datenübertragung abgebrochen
Replikat
Versteckte Kosten durch schlechte
Datenqualität



Manuelles Nacharbeiten von Daten
Beschwerden -> Aufwand in Call Center
Erhöhte Projektkosten bei Einführung neuer
Systeme
Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder
fehlender Daten
 Verspätete Unternehmensberichte
 Verlorene Kunden durch schlechten Support
 Produktionsausfälle durch Störung in der
Supply Chain
Datenqualität bezogen auf den
Warehousing – Prozess
Unterschiedliche
Daten und
Fehlerquellen
• Heterogene Datenmodelle / Konsistenz / Homonyme / Synonyme
• Kontinuität des Ladevorgangs / Vollständigkeit
• Widerspruchsfreiheit zwischen den Quellen
CRM
Data Marts
SCM
Bereitstellung
BI Tool A
Data
Warehouse
BI Tool B
ERP
Konsolidierung
Matadaten
Konsolidierter
Datenbereich
•Eindeutige Datenobjekte
Beschreibungen
•Homonyme / Synonyme
•Anwendungsneutral
BI Tool C
?
„Proaktives Qualitätsmanagement“
 Designqualität
 Ausführungsqualität
Total Quality
Management
Total Quality
Control
Qualitätssicherung
Qualitätskontrolle
Qualitätsplanung
Strategieen
Erwartungen
Planung
Qualitätslenkung
Qualitätssicherung
Kontinuierliche
Qualitätsverbesserung
Umsetzung
Einhaltung der
Vorgaben
Hilfsmittel
Strukturelle
Unterstützung
Weiterentwicklung
der Qualitätsstandards
Entwicklungsprojekte
OWB: Integriertes Vorgehen in der
Datenbeschaffung
Data
Profiling
Rules
Rules
Data
Quality
Rules
ETL
Oracle Warehouse Builder
Was wird geprüft
Datenqualität gewinnen mit
Oracle Warehouse Builder
- Data Profiling
 Schlechte Daten „Ein Klagelied“
(oder sollten wir sie verschweigen?)
 Beispielhafter Ablauf einer
Data Profiling Analyse
- ein Beispiel
 Erfahrungen / Abgrenzungen
Das Beispiel
Ablauf Data Profiling Analyse
Wo anfangen?
- eignen sich die Daten
für das Data Profiling?
- Was ist über die Daten
bekannt
Environment
- Datenmengen
- Rechner
- erste Überraschungen
Analysieren der
Daten
- „Augenfällige“ Erkenntnisse
-> der erste Schuss
- „Dinge, die sofort auffallen“
-> Domains / Pattern / PK
- Visuelles Analysieren
- Graphikeinsatz
- Beziehungen analysieren
Zurechtschneiden
der Daten
Ableiten von Regeln
und Korrekturen
- Daten aufbrechen
- Teilmengen
- Sampling
- Mehrfach - Profiling
- Einsatz von ETL
- Automatisches Erkennen
- Benutzerdefinierte Regeln
- Generieren von
Korrekturmappings
Regeln, die nicht
abgedeckt werden
und deren Lösung
- komplexe Lookup –
Beziehungen
- Rekursive Strukturen
- Tupel – übergreifende
Abhängigkeiten
ETL - Prozess
- Mappings
- Routinen
- Workflow
- Metadatenrepository
Dokumentieren
der Ergebnisse
- Ergebnisblatt
- Definition Metadaten
- Orga - Handbuch
1
2
3
4
5
6
7
X
Korrekte
Daten
Wo anfangen
 Eignen sich alle Problemstellungen?
Beispiel Wahlweise vertauschte Spalten
 Sind die Datenstrukturen bekannt?
Datenmodelle
IT - Abteilung
 Sind die erwarteten Regeln bekannt?
Fachanwenderwissen
Geschäftsprozesse
 Erfahrung: Nicht alle Daten und Problemstellungen
sind „Data Profiling – tauglich“
Environment


non Oracle
DB2
SQL Server
Informix
Teradata
Gateway
/ ODBC
/ FTP

Oracle 9i / 10g
SAP
SAP
Integrator
Source
Schema
Profiling
Stage


Oracle
Source
Schema
Transportable
Module
Möglichst innerhalb einer
Datenbank (kein DBLINK)
Quellsystemtabellen sollten
mit PARALLEL
gekennzeichnet sein (Grad
nicht festlegen)
Bei operativen Systemen, die
nicht modifiziert werden
können -> zu
Analysezwecken
„Transportable Modules
anwenden“
SGA > 500MB, wenn möglich
2-3 GB
buffer cache hit ratio im
Bereich von 95-99 %
External
Table

RAC
Erfahrung:
Laptop reicht nicht
Profiling Performance
10 Zeilen
20 Zeilen
10 Spalten
10 x 10 = 100
5 x 20 = 100
5 Spalten
Object Level
Column Level
An dieser Stelle erfolgt ein
Kundenbeispiel als Demo
Ergebnisblatt (Beispiele)
Varianten von Prüfungen
Attribut – bezogen
 Not Null / Pflichtfelder
 Formatangaben
 Check Constraint
 Wertbereiche
Ober-/Untergrenzen / Wertelisten
Satz – bezogen (Tupel)
 Abhängigkeiten von Werten in
anderen Attributen desselben
Satzes
Satzübergreifend (Relationen)
 Primary Key / Eindeutigkeit
 Aggregat – Bedingungen

Ober- Untergrenzen von Summen
Anzahl Sätze pro Intervall usw.
Rekursive Zusammenhänge
Verweise auf andere Sätze derselben
Tabelle (Relation)
Tabellenübergreifende (Interrelational)
 Foreign Key
 Aggregat – Bedingungen

Ober- Untergrenzen von Summen
Anzahl Sätze pro Intervall usw.
Rekursive Zusammenhänge
Verweise auf Sätze einer anderen Tabelle
(Relation)
Zeit – bezogen (Tupel)
 Zeitinvariante Inhalte


Anz. Bundesländer
Zeitabhängige Veränderungen
Über die Zeit mit anderen Daten
korrelierende Feldinhalte
Verteilungs – bezogen
 Arithmetische Mittel
 Varianz / Standardabweichungen
 Qualitätsmerkmale und Mengen
Datenqualität gewinnen mit
Oracle Warehouse Builder
- Data Profiling
 Schlechte Daten „Ein Klagelied“
(oder sollten wir sie verschweigen?)
 Beispielhafter Ablauf einer
Data Profiling Analyse
- ein Beispiel
 Erfahrungen / Abgrenzungen
Erfahrungen während der Arbeit
 Data Profiling zergliedert sich mehrere Steps
 Ähnlich wie bei Data Mining Verfahren ergeben sich erst im
Verlauf des Projektes neue Aspekte und Fragestellungen,
die den weiteren Verlauf bestimmen können
Zurechtschneiden der Daten
Entwurf einer Analysestrategie
 Die Masse der Prüfungsergebnisse könnte auch durch
direkte SQL – Abfragen ermittelt werden aber...
....man kommt nicht drauf
Gleichzeitiges Betrachten / Erkennen von mehreren Spalten
automatisches, batchgetriebenes, gleichzeitiges Suchen von Aspekten
Ansonsten müssten Prüfungen einzeln, Attribut – weise erfolgen
viele manuelle SQL – Statements auf vermutete Fehler
Erfahrungen während der Arbeit
 Systemfehler erkennen durch gleichzeitiges Betrachten von
Fehlern
Vergleichen von Anzahl
 Visuelle Darstellungen geben die Möglichkeit des intuitiven
Erfassens von potentiellen Problemen und Zusammenhängen
 Die Ergebnisse sind automatisch dokumentiert und

unterstützen damit das Qualitätsmanagement.
Die Einbettung in das ETL – Tool macht sich positiv
bemerkbar
Zurechtschneiden der Daten
Umsetzen der gefundenen Ergebnisse in Korrekturläufe
Erfahrungen während der Arbeit



Hardware – Umgebung muss stimmen
Die Analyse – Umgebung und die
Datenbereitstellung muss geplant werden
Komplexere Abhängigkeiten z. B.
zeilenübergreifende Zusammenhänge bedürfen
zusätzlicher Prüflogik.
Datenqualität mit
Oracle Warehouse Builder
Weitere Informationen:
[email protected]
Tel.: 040 / 89091-132
Herunterladen