Business and Data Understanding Business und Data Understanding Business and Data Understanding Gliederung 1. Grundlagen 2. Von Data Warehouse zu Data Mining 3. Das CRISP-DM Referenzmodell 4. Die Phasen Business- und Data Understanding 5. Überblick der weiteren Phasen 6. Neue Entwicklungen und andere Modelle 7. Abschließende Bewertung Business and Data Understanding 1. Grundlagen Entscheidungen unterstützen heißt Daten ... • sammeln • aufbereiten • abfragen • auswerten • präsentieren Data Warehouse (DW) := Datenbank, die strategische Entscheidungen unterstützt, indem sie ... • umfangreiche und • regelmäßige Auszüge aus • Produktionsdatenbanken • periodenbezogen und • oft aggregiert • Endbenutzern • auch zur ad hoc-Analyse bereit stellt Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem Aufwand zur Formulierung von Abfragen und Analysen Business and Data Understanding Abfragearten SQL := Structured Query Language (deklarativ) ¾ interaktiv oder in ein Programm eingebettet QBE := Query by example OLAP := On Line Analytical Processing ¾ ermöglichen auch ungeübten Benutzern flexible und mehrdimensionale adhoc-Abfragen von analytischen Datenbanken Business and Data Understanding 2. Von Data Warehouse zu Data Mining Kurze Zusammenfassung Abfrage und Berichtssprachen wie QBE, SQL standardisiert und mächtig, aber für gelegentliche Benutzer zu schwierig OLAP-Werkzeuge hingegen erlauben auch gelegentlichen Benutzern flexible, mehrdimensionale Abfragen Methoden allerdings eher anfrage-zentriert und von der Analysekomplexität her einfach Data Mining Werkzeuge erlauben komplexere Analysen lassen den Benutzer in Massendaten nach verborgenem Wissen "schürfen" Business and Data Understanding Der Begriff Data Mining to mine for heißt schürfen nach ▼ Data Mining := nichttriviales, automatisches Schürfen nach Wissen in Massendaten wobei meist Data Warehouses als Datenlieferanten dienen ¾ steht als Synonym für „Datenmustererkennung“ nichttrivial: mit komplexen Methoden aus KI und Statistik (statt der herkömmlichen Datenbankwerkzeug und nicht nur mit SQL, OLAP und Berichtsgeneratoren) Massendaten: z.B. Daten über Prospekt-Empfänger, oder aus Direct Mailing Kampagne (Analyseziel dann Vorhersage jener Adressaten, die positiv auf Kampagne reagieren) Business and Data Understanding Data Warehouse ▼ Daten · relevant · genügend · zuverlässig ▼ Data Mining ▲ Hypothesen über ... · wichtige Attribute · Beziehungen ▲ Betriebliches Fachwissen Business and Data Understanding 3. Das CRISP-DM Referenzmodell Projekt und Konsortium Projekt (Cross Industry Standard Process for Data Mining) im Juli 1997 offiziell mit der Bildung des Konsortiums initiiert Initiatoren, die zusammen eine Lösung für das Fehlen einer gut definierten und dokumentierten Methode für Data Mining suchten, sind: NCR Dänemark (u.a. Lieferant von Datawarehousing Lösungen) Der DaimlerChrysler Konzern (damals DaimlerBenz; Unternehmen mit Beteiligungen in u.a. der Autoindustrie, Luft- und Raumfahrttechnologie und Telekom) erweitert um die englische „Integral Solutions Limited“ (ISL), das Anbieter des Data Mining Pakets Clementine (1994) und durch eine Übernahme seit Januar 1999 Teil von SPSS ist „OHRA Versicherungen und Bank Gruppe“, Niederlande Das Projekt CRISP-DM wurde teilweise subventioniert von der Europäischen Kommission im Rahmen des ESPRIT-Programms zur Förderung von technologischen Entwicklungen in Europa (bis Mitte 1999) Business and Data Understanding Das Prozessmodell http://www.crisp-dm.org/Process/index.htm Business and Data Understanding Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002 Business and Data Understanding 4. Die Phasen Business- und Data Understanding Phase 1 Business Understanding Business and Data Understanding Phase 2 Data Understanding Business and Data Understanding 5. Überblick der weiteren Phasen Data Preparation deckt alle Tätigkeiten zur Konstruktion einer endgültigen Datenmenge (Daten, die zur Weiterverarbeitung in die Modell-Werkzeuge gesteckt werden) aus den Roh-Daten ab Aufgaben dieser Phase können mehrmals und auch in variabler Reihenfolge abgearbeitet werden Die Aufgaben umfassen Tabellen- , Records- und Attribut-Selekion ebenso wie Transformation und "Säuberung" der Daten für andere ModellWerkzeuge Modeling hier werden diverse Modellierungs-Techniken ausgewählt und angewendet, deren Parameter optimales Werten angepasst werden typischer Weise gibt es immer mehrere Techniken für den selben Typ eines Data Mining-Problems einige Techniken haben spezielle Anforderungen an die Daten deshalb ist ein Schritt zurück in die Phase Data Preparation oft notwendig Business and Data Understanding Evaluation - Grundlage: bisher erzeugte Modelle mit hoher Qualität - nochmaliges sehr gründliches Bewerten des bisherigen Modells (erste Schritte zur Erzeugung des Modells nachzuprüfen, um sicher zu sein, dass es die betriebswirtschaftlichen Ziele tatsächlich erreicht) - zentrales Ziel: feststellen, ob es ein wichtiges betriebs-wirtschaftliches Problem gibt, das bisher noch nicht zufriedenstellend berücksichtigt wurde - am Ende dieser Phase: Abwägung des Nutzens der DM-Ergebnisse Deployment - Erzeugung eines Modells ist im Allgemeinen nicht das Ende des Projekts - Selbst wenn das Ziel war, die Kenntnisse über die Daten zu vertiefen muß das erlangte Wissen aufgearbeitet und dem Kunden so präsentiert werden, dass dieser es problemlos verwenden kann - diese Entwicklungsphase kann in der Erstellung eines simpel Berichts oder in der komplexen Implementierung eines wiederholbaren Data Mining Prozesses in der gesamten Unternehmung bestehen - Um effizient Nutzen aus dem Modell ziehen zu können, ist es notwendig, den Kunden bestmöglich in die Entwicklung mit einzubeziehen Business and Data Understanding 6. Neue Entwicklungen und andere Modelle Andere systematische Ansätze zum Thema Data Mining sind von vielen Beratungsunternehmen entwickelt worden (besonders, um PrognoseWerkzeuge bereitzustellen) SPSS bedient sich der „5 A‘s“ Assess Access Analyze Act Automate SAS benutzt „SEMMA“ Sample Explore Modify Model Assess Business and Data Understanding SAS Rapid Warehousing Methodology - gewährleistet einen schnellen Return-On-Investment (ROI) bei DataWarehouse-Implementierungen - Das Data Warehouse wird in einem iterativen Prozess implementiert (Erfahrungen aus einzelnen Projektabschnitten fließen in die nachfolgenden Phasen ein → optimale Erfolgskontrolle) - Existierende Anwendungen können problemlos erweitert und neuen Fragestellungen angepasst werden http://www.metagroup.de/studien/2002/businessintelligence/profile/sas-light.pdf Business and Data Understanding OgilvyOne worldwide gehört in Deutschland zu den Top 3 CRM/Dialogmarketing-Agenturen und fügt den sechs Phasen des klassischen CRISP-Modells mit dem Monitoring noch eine weitere hinzu Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002 Business and Data Understanding Two Crows Corporation The Two Crows Process Model Grundlegende Schritte des Modells, das sich am CRISP-DM orientiert, sind: 1. 2. 3. 4. 5. 6. 7. Define Business Problem Build DM Database Explore Data Prepare Data for modeling Build Model Evaluate Model Deploy Model and results Business and Data Understanding 7. Abschließende Bewertung Vom CRISP-Standard versprachen sich die Initiatoren folgende Vorteile: - Data Mining Ergebnisse schließen besser an die Business Problematik an; - Produktivitätsverbesserung bei Systemanalytikern durch vorab definierte Schritte und Wiederverwendung von Kenntnissen; - ein zuverlässiger Prozess durch bessere Vorhersehbarkeit & Beherrschbarkeit - ein wiederholbarer Prozess durch das Festlegen von Schritten; - schnelleres Data Mining mit Hilfe präziser Methoden Erfahrungen: Vorteil von CRISP-DM: bessere Anschluß an die Business Problematik, die Zuverlässigkeit und Wiederholbarkeit des Prozesses und die Wiederverwendung von Kenntnissen DM Projekte immer zum größten Teil Menschenwerk (→ Qualitätsabhängigkeit), aber große Hilfe, wenn Unterstützung durch eine gute und strukturierte Methode vorhanden Business and Data Understanding Ergebnis einer Umfrage aus dem Jahr 2002 http://www.kdnuggets.com/polls/2002/methodology.htm