Einführung Data Mining

Werbung
Einführung Data Mining
P k i h Anwendungen
Praktische
A
d
für
fü automatisierte
i i
und
d
lernende Informationsverarbeitung
Wolfgang Konen, FH Köln
November 2009
Seite - 1
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Data Mining (DM): Entdecken von Wissen in
Datenbanken
W. Konen – DMC – WS2009
Wissen
Seite - 2
informatiK
K
Köln
K öln
Daten
‹ Unternehmen und Institutionen
sammeln ungeheure
Datenmengen
‹ Data Mining: Identifikation von
wettbewerbsrelevantem Wissen
aus grossen Datenbanken
‹ Automatische Erkennung von
Mustern
¾ nicht-trivial
c tt a
¾ bisher unbekannt
¾ potentiell nützlich
[Fayyad, 1996]
Analysebeispiel: Mobiltelefonie
Ein Problem ...
¾ Sie sind Marketingmanager im Mobilfunk
•
•
•
•
Problem: zu viele Abgänge bei Vertragsende: 40%
Neukunden erhalten kostenlos ein Telefon
Ih Unternehmen
Ihr
U t
h
zahlt
hlt 250 EUR P
Provision
i i pro Ab
Abschluss
hl
Jedem Kunden bei Vertragsende eine neues Telefon zu
geben ist zu teuer
Eine Lösung ...
©Plambeck/ PIXELIO
¾ Drei Monate vor Vertragsende vorhersagen, welche
K d nicht
Kunden
i ht verlängern
lä
• Den Kunden, die man behalten will, bietet man ein neues
Telefon an
Wie kann man künfiges Verhalten vorhersagen?
¾ Kartenlegen?
¾ Würfeln?
¾ Data Mining?
Seite - 3
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Beispiel aus der Automobilindustrie
‹ Daten über 7 - 10 Jahre Historie für 7 Mio. Fahrzeuge
g
¾ Fahrzeugdaten (Produktionsdaten; Daten über Motor,
Getriebe, ...)
¾ Beanstandungen (Schadensteil,
(Schadensteil Schadensart
Schadensart, ...))
¾ Werkstattaufenthalte
‹ Frage: Wie kann man das Auto zuverlässiger machen?
‹ Mustererkennung: Suche in Datenbank nach möglichen
Gründen für Ausfälle
‹ Umsetzung des Wissens:
¾ Änderung in Konstruktion
¾ Wechsel des Zulieferers
¾ Kundendienst: vorbeugende
Wartung
¾ usw.
usw
© Glathe / PIXELIO
Seite - 4
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Beispiel Umweltanwendung: Data Mining für
ökologische Standortbewertung Pflanzen
‹ „„Wo
o wächst
äc st was?“
as – relevant
e e a t für
ü
Umweltverträglichkeitsprüfung
‹ bisher: aufwendig
g manuell
erstellte Ökodiagramme
‹ multifaktorielle Daten:
¾ Wasser, Säuregehalt,
Nährstoffe, Lichtintensität,...
‹ mit
i D
Data Mi
Mining
i kö
können
vergleichbare Ergebnisse
umfassender schneller
umfassender,
(aktueller) und kostensparender
erzielt werden
[Kirsten,Wrobel,Dahmen,Dahmen, 1996]
Seite - 5
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Beispiel Wassermanagement
‹ Vorhersage Füllstand RÜB
(Regenüberlaufbecken)
‹ Modellbildung für Forecast, Output
abhängig von
¾ Regenmenge
¾ Bodenzustand & Grundwasser
(hidden states)
[Konen, Zimmer,
Bartz-Beielstein,
2009]
Seite - 6
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Weitere Anwendungsbeispiele
‹ Betrugserkennung
¾ B
Beispiel:
i i l E
Erkennung
k
ttypische
i h M
Muster
t zur Id
Identifikation
tifik ti
von Kreditkartenbetrug.
‹ Kreditbeurteilung
¾ Identifikation von Kriterien für Kreditwürdigkeit von
Kunden
‹ Nachfrageprognose
¾ Wieviele Einheiten von Produkt X setzen wir in der
KW42 ab?
⇒Computerwoche 03/2007: „Zweiter Frühling Data Mining“
Mining
http://www.computerwoche.de/produkte_technik/business_intelligence/590688
Seite - 7
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Der CRISPCRISP-DM Standard
‹ CRISP-DM: Cross-Industry Standard Process for Data Mining
‹ Entwickelt im Rahmen eines EU-Projekts von 1996-99
¾ Partner: DaimlerChrysler (Deutschland)
NCR Systems Copenhagen (USA,
(USA Dänemark)
OHRA Bank Groep B.V. (Niederlande)
SPSS Inc. (USA)
¾ Gründung
Gü d
einer
i
S
Special
i l IInterest
t
tG
Group
‹ Der CRISP-DM 1.0 Report beschreibt
¾ die CRISP-DM Methodology
gy
¾ das CRISP-DM Referenzmodell
¾ den CRISP-DM User Guide
¾ den
d jjeweiligen
ili
R
Resultate/Reports
lt t /R
t d
der einzelnen
i
l
Ph
Phasen
‹ Für Informationen zu CRISP-DM siehe http://www.crisp-dm.org
Seite - 8
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Das CRISPCRISP-DM Referenzmodell
Business
understanding
Data
understanding
Data
preparation
Data
Deployment
p y
Modelling
Evaluation
Seite - 9
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Die 6 Schritte des KDDKDD-Prozesses
Business
Understanding
Data
Understandi
ng
Data
Prepap
ration
Model
ling
Eval
u
uation
Deployp
y
ment
‹ Wichtig: Jeder Schritt ist zu dokumentieren!
Seite - 10
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
1. Schritt: Geschäftsmodell verstehen
Determine Business
Objectives
Assess Situation
Determine Data Mining
Goals
Produce Project Plan
W. Konen – DMC – WS2009
Data
Preparation
Mod
M
d
eling
Eva
luatio
n
Deplo
p
yme
nt
Geschäftsmodell / -ziele verstehen (z.B.
Abwanderung von Kunden
verhindern)
Ressourcen, Zeit, Risiken, Chancen
Genaue Spezifikation der Ziele (z.B.
70% der Abwanderer erkennen bei
20% Fehlalarmen)
Projektplan mit Meilensteinen
Seite - 11
informatiK
K
Köln
K öln
Business
Understanding
Data
U d
Understandi
ng
2. Schritt: Daten verstehen
Collect Initial Data
Describe Data
Explore Data
Verify Data Quality
W. Konen – DMC – WS2009
Data
Preparation
Mod
M
d
eling
Eva
luatio
n
Deplo
p
yme
nt
Wo kommen die Daten her? Wie? Joins
üb mehrere
über
h
DB
DBs notwendig?
t
di ?
Metadaten (Anzahl Attribute, Werte,
Format,Typen,
, yp , Mengen)
g )
Beispiele anschauen, Visualisierung
(z.B. Verteilungen, Korrelationen)
D t
Datenqualität
lität b
bestimmen,
ti
F
Fehler
hl
erkennen, Vollständigkeit
Seite - 12
informatiK
K
Köln
K öln
Business
Understanding
Data
U d
Understandi
ng
3. Schritt: Daten aufbereiten
Select Data
Clean Data
Construct Data
Integrate Data
Format &
TransformData
W. Konen – DMC – WS2009
Data
Preparation
Mod
M
d
eling
Eva
luatio
n
Deplo
p
yme
nt
Auswahl der (wichtigen) Variablen, ggf.
S
Sampling
li der
d Records
R
d
Ausreisser erkennen, fehlende Werte
behandeln
Abgeleitete Variablen (z.B. Summe
oder logische Verknüpfungen)
D t aus verschiedenen
Daten
hi d
T
Tabellen
b ll
zusammenführen
Formatierung
g ((z.B. Datum),
),
Transformation (z.B. normierte
Verteilung oder PCA)
Seite - 13
informatiK
K
Köln
K öln
Business
Understanding
Data
U d
Understandi
ng
4. Schritt: Modellierung
Select Modeling
Technique
Generate Test Design
Build Model
Assess Model
W. Konen – DMC – WS2009
Data
Preparation
Mod
M
d
eling
Eva
luatio
n
Deplo
p
yme
nt
Auswahl der Methode, ggf. mehrfach
Wie messen wir Modellgüte?
Aufteilung
g der Daten in Trainings-,
g
Test- und Validierungsmenge
Modell bauen, Parameter einstellen und
begründen
Technische Bewertung der Modellgüte,
ggf. mit anderen Parametern wdh.
Seite - 14
informatiK
K
Köln
K öln
Business
Understanding
Data
U d
Understandi
ng
5. Schritt: Evaluation
Evaluate Results
Review Process
D t
Determine
i N
Nextt St
Steps
W. Konen – DMC – WS2009
Data
Preparation
Mod
M
d
eling
Evall
E
uation
Deplo
p
yme
nt
Bewertung aller Resultate in Bezug auf
betriebswirtschaftliche Ziele
Begutachtung aller Schritte. Wurden
nur Daten verwendet
verwendet, die auch in
Zukunft verfügbar sind? Was wurde
übersehen?
Wi geht
Wie
ht es weiter?
it ?
Seite - 15
informatiK
K
Köln
K öln
Business
Understanding
Data
U d
Understandi
ng
6. Schritt: Einsatz
Data
U d
Understandi
ng
Plan Deployment
Plan Monitoring and
Maintenance
Produce Final Report
Review Project
W. Konen – DMC – WS2009
Data
Preparation
Mod
M
d
eling
Evall
E
uation
Deployment
Implementierungsstrategie, Einsatz DM in
P i ggf.
Praxis,
f Mitarbeiterschulung
Mit b it
h l
Überwachung der Gültigkeit der Modelle,
Strategie
g für Überarbeitungen
g
Zusammenfassender Bericht /
Präsentation
B
Begutachtung
t ht
des
d G
Gesamtprojektes.
t j kt
Lessons Learned (f. weitere Projekte):
Was lief schief? Was lief gut?
Seite - 16
informatiK
K
Köln
K öln
Business
Understanding
Data Mining ist eine Phase im Prozess der
Wissensentdeckung
g aus Datenbanken
Evaluierung /
Deployment
Wissen
Data Mining
Prozesse
& Daten
verstehen
Vorverar
beitung
Transformation
/ Selektion
Muster
--- --- ----- --- ----- --- ---
Task-Relevante
Daten
Vorverarbeitete
Daten
Zieldaten
Daten
Seite - 17
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Prozeßschritte der Wissensentdeckung
‹ Prozesse und Daten verstehen
¾ Geschäftsprozesse
p
mit den Anwendern besprechen
p
¾ Fokussierung, Auswahl relevanter Daten
‹ Vorverarbeitung
g / Transformation
¾ Bereinigung der Daten, z.B. was tun mit leeren Feldern,
¾ Verdichtung der Daten durch Datenreduktion und -projektion
¾ Datenformat vereinheitlichen
‹ Data Mining
¾ Auswahl von Techniken und Methoden
¾ evtl. viele Testläufe mit verschiedenen Parametern
‹ Evaluierung
¾ Beurteilung der Ergebnisse bzgl. festgelegter Kriterien
¾ Dokumentation, Visualisierung der Ergebnisse
‹ Deployment
¾ Überführung in die Anwendung
Seite - 18
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Warum Data Mining?
‹ Vereinfachung
e e ac u g u
und
d Automatisierung
uto at s e u g stat
statistischer
st sc e
Prozesse
¾ Datenanalyse
¾ Anwendung der Modelle
‹ Bessere, verständlichere Modelle
‹ Data Mining bringt viele Verfahren und Werkzeuge
‹ Data Mining bringt erprobte statistische Verfahren ins
Spiel (wo vorher evtl. noch wenig Statistik vorkam)
¾ Data Mining Verfahren basieren auf statistischen
V f h
Verfahren
Seite - 19
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Welche Formen von Daten kann Data Mining
analysieren?
‹ strukturierte Daten (Data Warehouses, DWH)
¾ z.B. Zeit-/Messreihen,
Kundendaten
‹ Multimedia-Daten
M lti di D t (Bild,
(Bild T
Ton))
‹ Geografische
G
fi h Daten
D t (GIS
(GIS, Spatial
S ti l Databases)
D t b
)
Seite - 20
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Welche Formen von Daten kann Data Mining
analysieren?
‹ Zeitreihen
Seite - 21
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Welche Formen von Daten kann Data Mining
analysieren?
‹ Textdokumente (Text Mining)
‹ Web Mining (z.B. Klickpfad-Analysen)
Seite - 22
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Wichtige Methoden des Data Mining
Entscheidungsbäume
Neuronale Netze
IF ...
THEN ...
Regelinduktion
Nearest Neighbor
Genetische
Algorithmen
Seite - 23
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Taxonomie von Aufgaben im Data Mining
(Auszug)
‹ Klassifikation
f
¾ Lernen, die Datensätze aufgrund ihrer Attribute
vorgegebenen Klassen zuzuordnen
¾ Beispiel: Klassifikation von Bankkunden ob kreditwürdig
oder nicht
‹ Regression und Vorhersage
¾ Modellierung einer kontinuierlichen Outputgröße, z.B.
zeitliche Veränderungen
¾ Beispiele: Zeitreihenanalyse,
Zeitreihenanalyse Aktienkurse
Aktienkurse, Vorhersage von
Systemausfällen auf Basis von Messdaten
‹ Clustering
¾ Aufteilung einer Datenmenge in disjunkte Gruppen
ähnlicher Objekte
¾ Beispiel: Gruppen von Autos mit ähnlichen Ausfällen,
Kundengruppierung für CRM (customer relationship mngmt)
Seite - 24
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Übungen
Ü
Ü
‹ Welches sind die 6 wichtigen Phasen in einem
Data Mining Projekt?
‹ Welche Typen (Formen) von Daten?
‹ Welche Gründe können den Einsatz von Data
Mining motivieren?
W. Konen – DMC – WS2009
Seite - 25
informatiK
K
Köln
K öln
Ü
Technologie ist nicht alles
Daten
sammeln
Daten
organisieren
Integration in
Anwendung
Neu?
Modell
anwenden
Nützlich?
DM
Seite - 26
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Technologie ist nicht alles
‹ Data Mining ist ein kreativer Prozess
¾ es reicht nicht: Datenbank + Softwaretool = fertig
‹ Wichtig für erfolgreiche Data-Mining-Projekte
¾ gesunder
d M
Menschenverstand
h
t db
beii d
der P
Prüfung
üf
d
der D
Daten
t
auf Plausibilität / Validität
¾ gutes Verständnis der Prozesse,
Prozesse der Teilnehmer und
deren Ziele
¾ dies alles kreativ einbauen in die Modellbildung, die für
aktuellen Prozess betrieben wird
⇒ Data Mining macht Spass !
Seite - 27
informatiK
K
Köln
K öln
W. Konen – DMC – WS2009
Herunterladen