<Insert Picture Here> Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle Information Management und Data Warehouse Themen • • • Stichwort: Data Quality Vorgehensmodell für Datenqualitätsanalysen Exemplarische Analysen Service GmbH Datenqualität? Was ist das? Unsere Daten sind doch sauber! • Bis zu 20% der operativen Daten sind betroffen. • Unternehmen finanzieren schlechte Daten mit 3050% der IT-Ausgaben. • Über schlechte Daten redet man nicht, man arrangiert sich. • Eine Umfrage unter 385 Dt. Finanz- und ITSpezialisten • < 50% IQ-Ziele bereits erreicht • 82 % glauben Finanzinformationen könnten für Planung und Strategieentwicklung wesentlich besser genutzt werden • Schlechte Datenqualität zwingt bei den meisten Unternehmen zu zusätzlichen Berichten und Analysen Die Kosten der schlechten Daten Versteckte Kosten durch schlechte Datenqualität • Manuelles Nacharbeiten von Daten • Beschwerden -> Aufwand in Call Center • Erhöhte Projektkosten bei Einführung neuer Systeme • Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten • Verspätete Unternehmensberichte • Verlorene Kunden durch schlechten Support • Produktionsausfälle durch Störung in der Supply Chain Ohne Daten kein Business Daten sind der Treibstoff der Prozesse Information Chain Marketing Werbung Adresse KD-Daten Bedarf Adresse Kreditdaten Kunde Angebot Kredit OK Kundenbetreuer Bestelldaten Bestand Stammdaten Order Logistiksystem Lager Buchhaltung Verkaufsdaten Lieferschein Spedition Rechnung Mahnung Bezahlung Reklamation Kunde Operative Prozesse Aspekte der Datenqualität Korrekt Stimmig Vollständig Brauchbarkeit der Daten! Dokumentiert Redundanzfrei Aktuell Verfügbar (Access) Nützlich (TCO) Handhabbar Data Profiling • Software – gestütztes Erkennen von Anomalien in Datenbeständen (The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality) • Interaktiver Analyse-Vorgang • Bestandteil von Oracle Warehouse Builder seit 2006 Beispiel: Datenqualitätsproblem • 5 Millionen Privatkunden-Kontaktdaten • Davon 372112 unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? • Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu! „Top Down“ und „Bottom Up Analysen“ ergänzen sich • Top Down „Wir wissen und vermuten Dinge die nicht stimmen“ • Vermutungen verifizieren Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten • Bottom Up durch Data Profiling „Wir lassen uns überraschen, was da noch kommt“ • Wir stöbern in den Daten und • • • • entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Neues entdecken Data Profiling mit OWB Methoden Die operativen Daten Feintuning zu den Analysemethoden Protokollierung laufende Analysen Drill Down zu den operativen Daten Vorgehensmodell für Datenqualitätsprojekte Erheben der Grunddaten Geschäftsfelder Data Ownern / Daten-Interessenten / Konsumenten DQ-Erwartungen Bekannte Schwachstellen Kosten Prioritäten Beschreibung der Geschäftsprozesse Objektmodell Datenflüsse und – schnittstellen Bekannte Geschäftsregeln Datenmodellprüfungen Vollständigkeitsbetrachtung Betrachtung der Verständlichkeit Schlüsselanalysen / Beziehungsanalysen Analyse von Hierarchien Suche nach Redundanzen (z. B. Normalisierung) Mengenanalyse / Stammdatenabgleiche Detailanalyse Überprüfen der Geschäftsregeln Analyse der erkannten Schwachstellen Verifizieren der DQ Erwartungen Die SERVICE GmbH Fallbeispiel Die SERVICE GmbH • Vermittlung von Dienstleistungen für Endkunden rund um das Handwerk • Handwerksleistung • Darlehen •Bereich Internet-/ Versandhandel • Computerteile • Privatkunden • Firmenkunden • Kundenkarte • Großhandel für Baumärkte und Einzelhandel • Haushaltswaren • Heimwerker • Gartenbedarf • KFZ-Zubehoer • Elektroartikel • Unterscheidung • Privatkunden SERVICE GmbH • Entstand aus Zusammenschluss mehrerer Vertriebsgesellschaften • Integration der Stammdaten „mit Hindernissen“ Erwartungen aus dem Unternehmen Buchhaltung: Es fehlen Daten Warum sind die Spediteursrechnungen so hoch? Sind alle Bestellungen korrekt bezahlt worden? Wie hoch sind die Versandkosten pro Lieferung? Was wurde storniert? Controlling: Vergleichbarkeit fehlt Marketing: Absatzzahlen sind nicht aussagefähig Was kosten Produkte im Einkauf? Wie teuer wurden Produkte verkauft? Wie rentabel sind einzelne Produkte Wie viel Kunden gibt es? Lohnt die Kundekarte? Welche Segmentierung gibt es? Vertrieb: wünscht leichtere Auswertungen Was sind wichtige Produkte? Was sind rentable Sparten? Hat sich der Servicebereich gelohnt? SERVICE GmbH Vertrieb Marketing Management Buchhaltung Controlling Management: Kennzahlen fehlen Wie hoch sind die liquiden Mittel? Wie hoch sind die Außenstände? Bekannte Schwachstellen Kosten der DQ-Probleme Analysemodell: Was wissen wir über den Prozess? Produkte Handwerker bietet an beauftragt Dienstleistungen Kunden bietet an verkauft Lieferanten Service GmbH holt ab Privat Kundenkarte bestellt storniert beauftragt Firmen liefert aus Spediteur beliefert Lager holt stornierte Ware ab liefert ab Objektmodell: Welche Geschäftsobjekte sind an dem Prozess beteiligt? Bewegungs daten Stornierung Lieferung Spediteur Stammdaten Zahlung Beauftragung / Order Partner Lieferanten Retouren Bestellung Dienstleister Produkte Artikel Service Kunde FirmenKunde Lager KundenKarte PrivatKunde Geschäftsprozess: Bestellungen Bestellprozess Status Beschaffung offene Posten Kundendaten prüfen MAX/MIN Menge Kreditlimit prüfen Kundenstamm Verfügbarkeit prüfen Spediteur beauftragen Bestellung anlegen Lieferschein Bestellsatz updaten Liefersatz anlegen Kundenstamm Produktestamm Bestellung Best_Pos Dienstleistung beauftragen Vertrag Bestellung Best_Pos Lieferung Datenflüsse / Schnittstellen Produktestamm Verpackung Mengen Preise Kundenstamm Artikeldaten Leistungen Stornierung Beträge Bestellung Discount ermittlung Leistungen Beträge Zahlung Vollständigkeitsanalyse Wichtige Daten fehlen! Identifizierung nur über Bestellnummer Keine Untergliederung nach Positionen möglich. Bewegungs daten Stornierung Zahlung Lieferung Spediteur Stammdaten Retouren Bestellung Beauftragung / Order Partner Lieferanten Liefernummer fehlt. Identifizierung nur über Bestellnummer Dienstleister Produkte Artikel Service Kunde FirmenKunde Lager KundenKarte PrivatKunde Verständlichkeit des Datenmodells (z. B. Homonyme) Kunden_Stamm Kundenstatus: P: Privatkunde F: Firmenkunde G: „guter“ Kunde K: „kein“ Kunde Produkte_Stamm Produktstatus: 1: Großhandelsware f. Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung) Schlüsselanalyse (Eindeutigkeit in den Stammdaten) Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten) Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?) Child Produkte_Stamm n:1 Parent Artikel_Gruppe Kardinalität Hilfsmittel: Referential Waisen Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?) Lieferung Stornierung Artikel_ Sparte Artikelgruppennr Bestellung Zahlung Artikel_ Gruppe Lager Artikelgruppennr Best_ Position Kunden_ stamm Produkte_ stamm Lieferant Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen) Bestellung Bestellnummer = 30 Kundennummer = 12 Zahlung ??? Bestellnummer = 30 Kundennummer = 21 Best_Position Bestellnummer = 30 Kundennummer = 12 Kunden_stamm Kundennummer = 12 Analyse von Hierarchien Artikelsparte ARTIKELSPARTENNR 1 , 2 ,3 Artikel_Gruppe ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 Produkte_Stamm ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10 Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE Vergleich der Wertebereiche von referenzierenden Feldern Ergebnisse der Hierarchie- und Beziehungsanalyse BI ? Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Sparten Gruppen Produkte Fehlerhafte Spartenkennzeichnung von Gruppen Orphans Falsche Statuskennzeichnung von Finanzprodukten Fehlerhafte Verschlüsselung von Artikel- und Produkten Bestellung Position Doppelte Produktnummern KundenStamm Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte , nicht rechenbare Einzelpreisbezeichnung Suche nach redundanten Informationen (1. Normalform) Kunden_Stamm Kundenstatus: P: Privatkunde F: Firmenkunde G: „guter“ Kunde K: „kein“ Kunde Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse Suche nach redundanten Informationen (2. Normalform) Hilfsmittel: Beziehungsanalyse Functional Dependency Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 % Suche nach redundanten Informationen (3. Normalform) Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 % Prüfung der aufgestellten Geschäftsregeln Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit Korrekt: Zusammen 100% (Alle Fälle erfasst) Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, muß 0 sein Korrekt, das sind die richtigen Werte Korrekt, das sind richtige Werte Problem: kein Schlüsselfeld ist gepflegt Korrekt, muß 0 sein Korrekt: Zusammen 100%. (Alle Fälle erfasst) Korrekt, muß 0 sein Problem Korrekt Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ? Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse