Vortrag

Werbung
Business and Data Understanding
Business und
Data Understanding
Business and Data Understanding
Gliederung
1. Grundlagen
2. Von Data Warehouse zu Data Mining
3. Das CRISP-DM Referenzmodell
4. Die Phasen Business- und Data Understanding
5. Überblick der weiteren Phasen
6. Neue Entwicklungen und andere Modelle
7. Abschließende Bewertung
Business and Data Understanding
1. Grundlagen
Entscheidungen unterstützen heißt Daten ...
•
sammeln
•
aufbereiten
•
abfragen
•
auswerten
•
präsentieren
Data Warehouse (DW) := Datenbank, die strategische Entscheidungen
unterstützt, indem sie ...
•
umfangreiche und
•
regelmäßige Auszüge aus
•
Produktionsdatenbanken
•
periodenbezogen und
•
oft aggregiert
•
Endbenutzern
•
auch zur ad hoc-Analyse bereit stellt
Business and Data Understanding
Datenbankabfragen
Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem Aufwand
zur Formulierung von Abfragen und Analysen
Business and Data Understanding
Abfragearten
SQL
:= Structured Query Language (deklarativ)
¾
interaktiv oder in ein Programm eingebettet
QBE
:= Query by example
OLAP
:= On Line Analytical Processing
¾
ermöglichen auch ungeübten Benutzern flexible und mehrdimensionale adhoc-Abfragen von analytischen Datenbanken
Business and Data Understanding
2. Von Data Warehouse zu Data Mining
Kurze Zusammenfassung
Abfrage und Berichtssprachen wie QBE, SQL standardisiert und mächtig, aber
für gelegentliche Benutzer zu schwierig
OLAP-Werkzeuge hingegen erlauben auch gelegentlichen Benutzern flexible,
mehrdimensionale Abfragen
Methoden allerdings eher anfrage-zentriert und von der Analysekomplexität her
einfach
Data Mining Werkzeuge
erlauben komplexere Analysen
lassen den Benutzer in Massendaten nach verborgenem Wissen "schürfen"
Business and Data Understanding
Der Begriff Data Mining
to mine for heißt schürfen nach
▼
Data Mining :=
nichttriviales, automatisches Schürfen nach Wissen in Massendaten
wobei meist Data Warehouses als Datenlieferanten dienen
¾
steht als Synonym für „Datenmustererkennung“
nichttrivial: mit komplexen Methoden aus KI und Statistik (statt der
herkömmlichen Datenbankwerkzeug und nicht nur mit SQL, OLAP und
Berichtsgeneratoren)
Massendaten: z.B. Daten über Prospekt-Empfänger, oder aus Direct Mailing
Kampagne (Analyseziel dann Vorhersage jener Adressaten, die positiv auf
Kampagne reagieren)
Business and Data Understanding
Data Warehouse
▼
Daten
· relevant
· genügend
· zuverlässig
▼
Data Mining
▲
Hypothesen über ...
· wichtige Attribute
· Beziehungen
▲
Betriebliches Fachwissen
Business and Data Understanding
3. Das CRISP-DM Referenzmodell
Projekt und Konsortium
Projekt (Cross Industry Standard Process for Data Mining) im Juli 1997 offiziell
mit der Bildung des Konsortiums initiiert
Initiatoren, die zusammen eine Lösung für das Fehlen einer gut definierten und
dokumentierten Methode für Data Mining suchten, sind:
ƒ
NCR Dänemark (u.a. Lieferant von Datawarehousing Lösungen)
ƒ
Der DaimlerChrysler Konzern (damals DaimlerBenz; Unternehmen mit
Beteiligungen in u.a. der Autoindustrie, Luft- und Raumfahrttechnologie und
Telekom)
ƒ
erweitert um die englische „Integral Solutions Limited“ (ISL), das Anbieter des
Data Mining Pakets Clementine (1994) und durch eine Übernahme seit
Januar 1999 Teil von SPSS ist
ƒ
„OHRA Versicherungen und Bank Gruppe“, Niederlande
Das Projekt CRISP-DM wurde teilweise subventioniert von der Europäischen
Kommission im Rahmen des ESPRIT-Programms zur Förderung von
technologischen Entwicklungen in Europa (bis Mitte 1999)
Business and Data Understanding
Das Prozessmodell
http://www.crisp-dm.org/Process/index.htm
Business and Data Understanding
Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002
Business and Data Understanding
4. Die Phasen Business- und Data Understanding
Phase 1 Business Understanding
Business and Data Understanding
Phase 2 Data Understanding
Business and Data Understanding
5. Überblick der weiteren Phasen
Data Preparation
deckt alle Tätigkeiten zur Konstruktion einer endgültigen Datenmenge
(Daten, die zur Weiterverarbeitung in die Modell-Werkzeuge gesteckt
werden) aus den Roh-Daten ab
Aufgaben dieser Phase können mehrmals und auch in variabler Reihenfolge
abgearbeitet werden
Die Aufgaben umfassen Tabellen- , Records- und Attribut-Selekion ebenso
wie Transformation und "Säuberung" der Daten für andere ModellWerkzeuge
Modeling
hier werden diverse Modellierungs-Techniken ausgewählt und angewendet,
deren Parameter optimales Werten angepasst werden
typischer Weise gibt es immer mehrere Techniken für den selben Typ eines
Data Mining-Problems
einige Techniken haben spezielle Anforderungen an die Daten
deshalb ist ein Schritt zurück in die Phase Data Preparation oft notwendig
Business and Data Understanding
Evaluation
-
Grundlage: bisher erzeugte Modelle mit hoher Qualität
-
nochmaliges sehr gründliches Bewerten des bisherigen Modells (erste
Schritte zur Erzeugung des Modells nachzuprüfen, um sicher zu sein, dass
es die betriebswirtschaftlichen Ziele tatsächlich erreicht)
-
zentrales Ziel: feststellen, ob es ein wichtiges betriebs-wirtschaftliches
Problem gibt, das bisher noch nicht zufriedenstellend berücksichtigt wurde
-
am Ende dieser Phase: Abwägung des Nutzens der DM-Ergebnisse
Deployment
-
Erzeugung eines Modells ist im Allgemeinen nicht das Ende des Projekts
-
Selbst wenn das Ziel war, die Kenntnisse über die Daten zu vertiefen muß
das erlangte Wissen aufgearbeitet und dem Kunden so präsentiert werden,
dass dieser es problemlos verwenden kann
-
diese Entwicklungsphase kann in der Erstellung eines simpel Berichts oder in
der komplexen Implementierung eines wiederholbaren Data Mining
Prozesses in der gesamten Unternehmung bestehen
-
Um effizient Nutzen aus dem Modell ziehen zu können, ist es notwendig, den
Kunden bestmöglich in die Entwicklung mit einzubeziehen
Business and Data Understanding
6. Neue Entwicklungen und andere Modelle
Andere systematische Ansätze zum Thema Data Mining sind von vielen
Beratungsunternehmen entwickelt worden (besonders, um PrognoseWerkzeuge bereitzustellen)
SPSS bedient sich der „5 A‘s“
Assess
Access
Analyze
Act
Automate
SAS benutzt „SEMMA“
Sample
Explore
Modify
Model
Assess
Business and Data Understanding
SAS Rapid Warehousing Methodology
-
gewährleistet einen schnellen Return-On-Investment (ROI) bei DataWarehouse-Implementierungen
-
Das Data Warehouse wird in einem iterativen Prozess implementiert
(Erfahrungen aus einzelnen Projektabschnitten fließen in die nachfolgenden
Phasen ein → optimale Erfolgskontrolle)
-
Existierende Anwendungen können problemlos erweitert und neuen
Fragestellungen angepasst werden
http://www.metagroup.de/studien/2002/businessintelligence/profile/sas-light.pdf
Business and Data Understanding
OgilvyOne worldwide
gehört in Deutschland zu den Top 3 CRM/Dialogmarketing-Agenturen und fügt
den sechs Phasen des klassischen CRISP-Modells mit dem Monitoring noch
eine weitere hinzu
Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002
Business and Data Understanding
Two Crows Corporation
The Two Crows Process Model
Grundlegende Schritte des Modells, das sich am CRISP-DM orientiert,
sind:
1.
2.
3.
4.
5.
6.
7.
Define Business Problem
Build DM Database
Explore Data
Prepare Data for modeling
Build Model
Evaluate Model
Deploy Model and results
Business and Data Understanding
7. Abschließende Bewertung
Vom CRISP-Standard versprachen sich die Initiatoren folgende Vorteile:
-
Data Mining Ergebnisse schließen besser an die Business Problematik an;
-
Produktivitätsverbesserung bei Systemanalytikern durch vorab definierte
Schritte und Wiederverwendung von Kenntnissen;
-
ein zuverlässiger Prozess durch bessere Vorhersehbarkeit &
Beherrschbarkeit
-
ein wiederholbarer Prozess durch das Festlegen von Schritten;
-
schnelleres Data Mining mit Hilfe präziser Methoden
Erfahrungen:
Vorteil von CRISP-DM:
bessere Anschluß an die Business Problematik, die Zuverlässigkeit und
Wiederholbarkeit des Prozesses und die Wiederverwendung von
Kenntnissen
DM Projekte immer zum größten Teil Menschenwerk (→ Qualitätsabhängigkeit),
aber große Hilfe, wenn Unterstützung durch eine gute und strukturierte
Methode vorhanden
Business and Data Understanding
Ergebnis einer Umfrage aus dem Jahr 2002
http://www.kdnuggets.com/polls/2002/methodology.htm
Herunterladen