Kunde Kunden - Oracle Data Warehouse Community Seite

Werbung
<Insert Picture Here>
Datenqualitätsanalysen mit Oracle
Alfred Schlaucher,
Data Warehouse Architect, Oracle
Information
Management
und
Data
Warehouse
Themen
•
•
•
Stichwort: Data Quality
Vorgehensmodell für Datenqualitätsanalysen
Exemplarische Analysen Service GmbH
Datenqualität? Was ist das?
Unsere Daten sind doch sauber!
• Bis zu 20% der operativen Daten sind betroffen.
• Unternehmen finanzieren schlechte Daten mit 3050% der IT-Ausgaben.
• Über schlechte Daten redet man nicht, man arrangiert
sich.
• Eine Umfrage unter 385 Dt. Finanz- und ITSpezialisten
• < 50% IQ-Ziele bereits erreicht
• 82 % glauben Finanzinformationen könnten für Planung und
Strategieentwicklung wesentlich besser genutzt werden
• Schlechte Datenqualität zwingt bei den meisten Unternehmen
zu zusätzlichen Berichten und Analysen
Die Kosten der schlechten Daten
Versteckte Kosten durch schlechte
Datenqualität
• Manuelles Nacharbeiten von Daten
• Beschwerden -> Aufwand in Call Center
• Erhöhte Projektkosten bei Einführung neuer Systeme
• Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder
fehlender Daten
• Verspätete Unternehmensberichte
• Verlorene Kunden durch schlechten Support
• Produktionsausfälle durch Störung in der
Supply Chain
Ohne Daten kein Business
Daten sind der Treibstoff der Prozesse
Information Chain
Marketing
Werbung
Adresse
KD-Daten
Bedarf
Adresse
Kreditdaten
Kunde
Angebot
Kredit OK
Kundenbetreuer
Bestelldaten
Bestand
Stammdaten
Order
Logistiksystem
Lager
Buchhaltung
Verkaufsdaten
Lieferschein
Spedition
Rechnung
Mahnung
Bezahlung
Reklamation
Kunde
Operative Prozesse
Aspekte der Datenqualität
Korrekt
Stimmig
Vollständig
Brauchbarkeit
der Daten!
Dokumentiert
Redundanzfrei
Aktuell
Verfügbar (Access)
Nützlich (TCO)
Handhabbar
Data Profiling
• Software – gestütztes Erkennen von Anomalien in
Datenbeständen
(The use of analytical techniques about data for the purpose of developing a
thorough knowledge of its content, structure and quality)
• Interaktiver Analyse-Vorgang
• Bestandteil von Oracle Warehouse Builder seit 2006
Beispiel:
Datenqualitätsproblem
• 5 Millionen Privatkunden-Kontaktdaten
• Davon 372112 unterschiedliche Berufe
Wie wertvoll ist diese Art der Information?
Kann damit eine Segmentierung für eine
Marketingkampagne gesteuert werden?
• Datenmaterial lässt Rückschlüsse auf die
Geschäftsprozesse zu!
„Top Down“ und „Bottom Up
Analysen“ ergänzen sich
• Top Down
„Wir wissen und vermuten
Dinge die nicht stimmen“
•
Vermutungen
verifizieren
Wir können sinnvolle Analysen
aufgrund bekannter Dinge ableiten
• Bottom Up durch Data Profiling
„Wir lassen uns überraschen,
was da noch kommt“
• Wir stöbern in den Daten und
•
•
•
•
entdecken Auffälligkeiten
beginnen zu kombinieren
stellen Hypothesen auf
versuchen Zusammenhänge
zu beweisen
Neues
entdecken
Data Profiling mit OWB
Methoden
Die
operativen
Daten
Feintuning zu
den Analysemethoden
Protokollierung
laufende
Analysen
Drill Down zu den operativen Daten
Vorgehensmodell für
Datenqualitätsprojekte
Erheben der Grunddaten
Geschäftsfelder
Data Ownern / Daten-Interessenten / Konsumenten
DQ-Erwartungen
Bekannte Schwachstellen
Kosten
Prioritäten
Beschreibung der
Geschäftsprozesse
Objektmodell
Datenflüsse und –
schnittstellen
Bekannte Geschäftsregeln
Datenmodellprüfungen
Vollständigkeitsbetrachtung
Betrachtung der Verständlichkeit
Schlüsselanalysen / Beziehungsanalysen
Analyse von Hierarchien
Suche nach Redundanzen (z. B.
Normalisierung)
Mengenanalyse / Stammdatenabgleiche
Detailanalyse
Überprüfen der Geschäftsregeln
Analyse der erkannten Schwachstellen
Verifizieren der DQ Erwartungen
Die
SERVICE GmbH
Fallbeispiel
Die SERVICE GmbH
• Vermittlung von Dienstleistungen
für Endkunden rund um das Handwerk
• Handwerksleistung
• Darlehen
•Bereich Internet-/
Versandhandel
• Computerteile
• Privatkunden
• Firmenkunden
• Kundenkarte
• Großhandel für Baumärkte und
Einzelhandel
• Haushaltswaren
• Heimwerker
• Gartenbedarf
• KFZ-Zubehoer
• Elektroartikel
• Unterscheidung
• Privatkunden
SERVICE GmbH
• Entstand aus
Zusammenschluss
mehrerer
Vertriebsgesellschaften
• Integration der
Stammdaten
„mit Hindernissen“
Erwartungen aus dem Unternehmen
Buchhaltung: Es fehlen Daten
Warum sind die Spediteursrechnungen so hoch?
Sind alle Bestellungen korrekt bezahlt worden?
Wie hoch sind die Versandkosten pro Lieferung?
Was wurde storniert?
Controlling:
Vergleichbarkeit fehlt
Marketing: Absatzzahlen
sind nicht aussagefähig
 Was kosten Produkte im
Einkauf?
 Wie teuer wurden Produkte
verkauft?
 Wie rentabel sind einzelne
Produkte
Wie viel Kunden gibt es?
Lohnt die Kundekarte?
Welche Segmentierung gibt es?
Vertrieb: wünscht leichtere
Auswertungen
Was sind wichtige Produkte?
Was sind rentable Sparten?
Hat sich der Servicebereich
gelohnt?
SERVICE GmbH
Vertrieb
Marketing
Management
Buchhaltung
Controlling
Management:
Kennzahlen fehlen
 Wie hoch sind die
liquiden Mittel?
 Wie hoch sind die
Außenstände?
Bekannte Schwachstellen
Kosten der DQ-Probleme
Analysemodell:
Was wissen wir über den Prozess?
Produkte
Handwerker
bietet an
beauftragt
Dienstleistungen
Kunden
bietet an
verkauft
Lieferanten
Service GmbH
holt ab
Privat
Kundenkarte
bestellt
storniert
beauftragt
Firmen
liefert aus
Spediteur
beliefert
Lager
holt
stornierte
Ware ab
liefert ab
Objektmodell:
Welche Geschäftsobjekte sind an dem Prozess beteiligt?
Bewegungs
daten
Stornierung
Lieferung
Spediteur
Stammdaten
Zahlung
Beauftragung /
Order
Partner
Lieferanten
Retouren
Bestellung
Dienstleister
Produkte
Artikel
Service
Kunde
FirmenKunde
Lager
KundenKarte
PrivatKunde
Geschäftsprozess: Bestellungen
Bestellprozess
Status
Beschaffung
offene
Posten
Kundendaten
prüfen
MAX/MIN
Menge
Kreditlimit
prüfen
Kundenstamm
Verfügbarkeit
prüfen
Spediteur
beauftragen
Bestellung
anlegen
Lieferschein
Bestellsatz
updaten
Liefersatz
anlegen
Kundenstamm
Produktestamm
Bestellung
Best_Pos
Dienstleistung beauftragen
Vertrag
Bestellung
Best_Pos
Lieferung
Datenflüsse / Schnittstellen
Produktestamm
Verpackung
Mengen
Preise
Kundenstamm
Artikeldaten
Leistungen
Stornierung
Beträge
Bestellung
Discount
ermittlung
Leistungen
Beträge
Zahlung
Vollständigkeitsanalyse
Wichtige Daten fehlen!
Identifizierung nur
über Bestellnummer
Keine Untergliederung
nach Positionen
möglich.
Bewegungs
daten
Stornierung
Zahlung
Lieferung
Spediteur
Stammdaten
Retouren
Bestellung
Beauftragung /
Order
Partner
Lieferanten
Liefernummer fehlt.
Identifizierung nur über
Bestellnummer
Dienstleister
Produkte
Artikel
Service
Kunde
FirmenKunde
Lager
KundenKarte
PrivatKunde
Verständlichkeit des Datenmodells
(z. B. Homonyme)
Kunden_Stamm
Kundenstatus:
P: Privatkunde
F: Firmenkunde
G: „guter“ Kunde
K: „kein“ Kunde
Produkte_Stamm
Produktstatus:
1: Großhandelsware f.
Baumärkte
2: Produkte kaufbar über
Internet
3: Serviceleistung
(Kredite und
Handwerksleistung)
Schlüsselanalyse
(Eindeutigkeit in den Stammdaten)
Doppelter Datensatz
Unterschiedliche Sätze,
aber Schlüsselfeld falsch gepflegt
Unterschiedliche Sätze, aber
Feld wird nicht genutzt
Schlüsselanalyse
(Eindeutigkeit in den Bewegungsdaten)
Beziehungsanalyse
(Wer hängt an wem? Wer ist isoliert?)
Child
Produkte_Stamm
n:1
Parent
Artikel_Gruppe
Kardinalität
Hilfsmittel:
Referential
Waisen
Beziehungsanalyse
(Wer hängt an wem? Wer ist isoliert?)
Lieferung
Stornierung
Artikel_
Sparte
Artikelgruppennr
Bestellung
Zahlung
Artikel_
Gruppe
Lager
Artikelgruppennr
Best_
Position
Kunden_
stamm
Produkte_
stamm
Lieferant
Kreisbeziehung
(Irgendwann passen die Daten nicht mehr zusammen)
Bestellung
Bestellnummer = 30
Kundennummer = 12
Zahlung
???
Bestellnummer = 30
Kundennummer = 21
Best_Position
Bestellnummer = 30
Kundennummer = 12
Kunden_stamm
Kundennummer = 12
Analyse von Hierarchien
Artikelsparte
ARTIKELSPARTENNR
1 , 2 ,3
Artikel_Gruppe
ARTIKELSPARTENNR
1,4,3
ARTIKELGRUPPENNR
1,2,3,4,5,6,11,10,9,8,7
Produkte_Stamm
ARTIKELGRUPPENNR
100,1,6,2,5,4,7,3,10
Hierarchie:
ARTIKEL_GRUPPE -> ARTIKELSPARTE
Beziehung
PRODUKTE_STAMM -> ARTIKEL_GRUPPE
Vergleich der Wertebereiche von
referenzierenden Feldern
Ergebnisse der Hierarchie- und
Beziehungsanalyse
BI
?
Umsatz pro Sparte?
Umsatz pro Gruppe?
Umsatz pro Produkt?
Werden korrekte
Rechnungen gestellt?
Umsatz pro Kunde?
Macht die Kundenkarte
Sinn?
Sparten
Gruppen
Produkte
Fehlerhafte
Spartenkennzeichnung
von Gruppen
Orphans
Falsche
Statuskennzeichnung
von Finanzprodukten
Fehlerhafte
Verschlüsselung
von Artikel- und
Produkten
Bestellung
Position
Doppelte
Produktnummern
KundenStamm
Doppelte Wertebelegung von
Statuskennzeichnung für
Privat- und Firmenkunden.
Fehlerhafte , nicht
rechenbare
Einzelpreisbezeichnung
Suche nach redundanten Informationen
(1. Normalform)
Kunden_Stamm
Kundenstatus:
P: Privatkunde
F: Firmenkunde
G: „guter“ Kunde
K: „kein“ Kunde
Folge:
Alle Abfragen/Analysen über Privatkunden sind
damit nicht mehr sauber durchführbar.
(Z. B. Abfragen über die Wirkung der Kundenkarte.
Hilfsmittel:
Domainanalyse
Suche nach redundanten Informationen
(2. Normalform)
Hilfsmittel:
Beziehungsanalyse
Functional Dependency
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
Suche nach redundanten Informationen
(3. Normalform)
Hilfsmittel:
Beziehungsanalyse
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
Prüfung der aufgestellten
Geschäftsregeln
Stammdatenregel:
Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld
steuert mit
Stammdatenregel:
Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld
steuert mit
Korrekt: Zusammen 100%
(Alle Fälle erfasst)
Korrekt, muß 0 sein
Korrekt:
Es kann nur ein
Wert gepflegt sein.
Korrekt, muß 0 sein
Korrekt, muß 0 sein
Korrekt, das sind
die richtigen Werte
Korrekt, das sind
richtige Werte
Problem:
kein Schlüsselfeld
ist gepflegt
Korrekt, muß 0 sein
Korrekt:
Zusammen
100%.
(Alle Fälle erfasst)
Korrekt, muß 0 sein
Problem
Korrekt
Stammdatenbetrachtung
In einigen Fällen fehlen die Einkaufpreise
?
Nicht normiertes Datenmaterial
Mit solchen Daten kann man nicht rechnen
Hilfsmittel:
Pattern-Analyse
Herunterladen