Data Mining - Wirtschaftsinformatik - Ruhr

Werbung
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Management Support
Systeme
WS 2004-2005
14.00-16.00 Uhr
PD Dr. Peter Gluchowski
PD Dr. P. Gluchowski
Folie 1
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Gliederung MSS WS 04/05
1. Einführung Management Support Systeme:
Informationssysteme zur Unterstützung betrieblicher
Fach- und Führungskräfte
2. Management: Organisation und Prozesse
3. Strukturbestimmende Merkmale von MSS
4. Klassische Ausprägungen von MSS
5. Aktuelle Systemkategorien
1.
2.
3.
4.
Data Warehouse-Konzept
On-Line Analytical Processing
Data Mining
Weitere betriebswirtschaftliche und technologische Ansätze
6. Zusammenfassung und Ausblick
PD Dr. P. Gluchowski
Folie 207
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Knowledge Discovery
in Databases
Begriffsabgrenzung
Knowledge Discovery in Databases beschreibt den
“.. non-trivial process of identifying valid, novel,
potentially useful, and ultimately understandable
patterns in data ..”
[Fayyad, et al. 1996]
• Prozess
• umfangreiche Datenbestände
• implizit vorhandenes Wissen entdecken
PD Dr. P. Gluchowski
Folie 208
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Knowledge Discovery
in Databases
KDD als interdisziplinäres Forschungsgebiet
Expert
Systems
Machine
Learning
KDD
Databases
Statistics
Visualization
PD Dr. P. Gluchowski
Folie 209
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining
Data Mining bezeichnet alle Aktivitäten,
“.. that find a logical or mathematical description,
eventually of a complex nature, of patterns and
regularities in a set of data ..”
[Decker, et al. 1995]
Wird hier als Schritt im KDD-Prozess aufgefasst!
PD Dr. P. Gluchowski
Folie 210
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining – KDD-Prozess
Datenmustererkennung
Data Mining
Muster
Transformation
Vorverarbeitung
Auswahl
Transformierte
Daten
Vorverarbeitete
Daten
Datenbank
PD Dr. P. Gluchowski
Folie 211
Interpretation
“Wissen”
Ziel
Daten
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining – KDD-Prozess
Muster
Wissen
Zielsetzung
und
Aufgabenstellung
Datenvorbereitung
Data
Mining
Ergebnisinterpretation
Prozessphasen
Analysedaten
Ergebnisse
Aufgabe der
Analyse
100
60
60
40
20
20
10
10
Zeitaufwand
(in %)
80
0
PD Dr. P. Gluchowski
Folie 214
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Datenvorbereitung
Einzelaktivitäten
• Auswahl und Verknüpfung der Daten
• Bereinigung von fehlerhaften oder fehlenden Daten
• Löschen von redundanten Daten
• Transformation für die Data-Mining-Phase
• Aufteilung des Datenbestandes
PD Dr. P. Gluchowski
Folie 215
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining- Datenvorbereitung
Beispiel Preprocessing 1
Name
Age
Region
City
Children
Meier
56
NRW
Duisburg
3
Schulz
32
NRW
Duisburg
Yes
NRW
Essen
2
NRW
Diusburg
4
Muster
Müller
18
fehlende
Werte
fehlerhafte
Werte
PD Dr. P. Gluchowski
Folie 216
Redundanz
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining- Datenvorbereitung
Beispiel Preprocessing 2
Transformation von nominalen Werten in Zahlengrößen
Yes
1
Pivotisierung
TID
1234
PD Dr. P. Gluchowski
Folie 217
Item 1
1
Item 2
1
Item 3
0
TID
ITEM
1234
Item1
1234
Item2
1234
Item4
Item 4
1
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining i.e.S.
Aufgabenstellung:
Clusterung
(Entdeckung von Gruppen ähnlicher Daten)
Welche Kunden besuchen mein Geschäft ?
Klassifikation
(Ordne einem neuen Objekt eine Klassen zu)
Zu welcher Kundengruppe gehört dieser Kunde ?
Assoziationsregeln
(Entdecke Abhängigkeiten in Daten)
Welche Artikel werden zusammen gekauft ?
PD Dr. P. Gluchowski
Folie 218
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining i.e.S.
Beispiele für Data Mining Anwendungen
1. Clusteranalyse für Database-Marketing
Kunden sollen in Klassen eingeteilt werden, um gezielt eine
Briefwerbeaktion durchzuführen. Es werden damit Streuverluste
vermieden.
Frage:
"Welche Kundengruppen gibt es ?"
Praxis: 25%-30% Verbesserung der Response-Scores im Bankenbereich
wurden nachgewiesen.
American Express: 15-20% Steigerung des Kreditkartengebrauchs
Spendenaktionen Unicef: 80 % erfolgreichere Spendeneinwerbung
PD Dr. P. Gluchowski
Folie 219
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining i.e.S.
2. Klassifikation
Ein neuer Kunde einer Bank möchte einen Kredit bekommen.
Es soll eine Bonitätsanalyse durchgeführt werden.
Frage: "In welche Risikoklasse ist der Kunde einzuteilen ?"
Lösung: Es liegen genug Fälle im Datenbestand vor, so dass ein
Klassifizierungsverfahren durchgeführt werden kann. Dieses liefert eine
Entscheidungsregel, ob der Kredit gewährt wird, ob nicht oder ob ein
Risikozuschlag erhoben wird.
PD Dr. P. Gluchowski
Folie 221
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining i.e.S.
Vorhersage von Devisen/Aktienkursen:
Frage: "Wie entwickelt sich der Kurs des Dollars ?"
Hier sind vor allem Prognoseverfahren mit Neuronalen Netzen in Gebrauch.
Ein Trainingsset wird eingegeben, die Klassen sind beispielsweise „Kurs
steigt“, „Kurs fällt“.
Es werden nun die Tagesdaten (ökonomische Größen) eingegeben und eine
Klassifizierung vorgenommen.
PD Dr. P. Gluchowski
Folie 222
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining i.e.S.
3. Assoziationsanalyse:
Warenkorbanalyse
Standardbeispiel:
Babywindeln und Bier werden freitags abends zusammen gekauft !
Sequentielle Analyse
Kunden mit Alter X, Familienstand Y kaufen Computer, dann Software Z, dann
Zusatzhardware A
Ziel: Zur rechten Zeit dem Kunden Produkt anbieten !
PD Dr. P. Gluchowski
Folie 223
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining i.e.S.
Kreditkartenmißbrauch (fraud detection):
Frage:
"Welche zeitlichen Verhaltensmuster sind festzustellen, wenn ein
Kreditkartenmissbrauch vorliegt ?"
z.B. es gehen vor einer großen Abbuchungen meist kleinere Testbuchungen
voraus.
Ziel: Sperrung der Karte bei auffälligem Verhaltensmuster.
PD Dr. P. Gluchowski
Folie 224
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Verfahren
Kundensegmentierung (unüberwachtes Lernen)
Kunde
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
Artikelanzahl
20
6
18
18
15
4
14
10
20
10
13
5
Durchschnittspreis
80,110,150,100,50,100,50,70,120,60,70,80,-
Artikelgruppe
A, B, C
A, B, C
A, D
A, B, C, D
A, C, D
B, C
B, C
C, D
A
A, B
A, B
C, D
A: Damentextilien, B: Herren- und Kindertextilien, C: Haushalt, D: Geschenkartikel
12.01.2005
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Verfahren
Kundensegmentierung (unüberwachtes Lernen)
Kundenanalyse
Kreisgröße:
Anzahl Artikelgruppen
180
160
Durchschnittspreis
140
120
100
80
60
40
20
0
0
5
10
15
20
25
Artikelanzahl
PD Dr. P. Gluchowski
Folie 226
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Partitionierende Verfahren
K-Means-Algorithmus:
Einteilung gemäß kleinstem Abstand zum Klassenmittelwert
Kundenanalyse
180
160
Durchschnittspreis
140
120
1
100
3
80
60
2
40
20
0
0
5
10
15
20
25
Artikelanzahl
PD Dr. P. Gluchowski
Folie 227
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Partitionierende Verfahren
Ergebnisbeispiele
Cluster 1
Viele Artikel, vorwiegend Textilien, hoher Preis
Cluster 2
Cluster 3
Mittlere Anzahl Artikel, gemischt, niedriger Preis
Wenige Artikel, vorwiegend Haushalt,
mittlerer Preis
Kunden aus Cluster 1 besonders umwerben !
PD Dr. P. Gluchowski
Folie 228
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
•
Ziel: Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können.
•
Zuordnung geschieht anhand von Regeln
(Darstellung mit Klassifikationsbäumen)
•
Beispiel:
Einteilung von Datensätzen, die Angaben über Kunden enthalten, so
dass damit die Käufergruppe erkannt werden kann, in die der Kunde
voraussichtlich gehört.
•
Voraussetzung: Datenbestand bei dem für jeden Datensatz die
zugehörige Klasse bekannt ist.
PD Dr. P. Gluchowski
Folie 229
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Grundsätzliche Arbeitsweise:
Gesamtdatenbestand wird in eine Trainingsmenge und eine Testmenge
aufgeteilt.
Dann sukzessive Aufteilung der Trainingsmenge, so dass sich daraus
homogenere Gruppen von Datensätzen bezüglich der
Klassifikationsvariablen ergeben.
Die Aufteilung der Datenmengen kann durch einen Baum dargestellt
werden, in dem jeder Knoten eine Datenmenge indiziert, dem ein
Homogenitätsmaß zugeordnet wird.
Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird der
Knoten einer bestimmten Klasse zugeordnet.
PD Dr. P. Gluchowski
Folie 230
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Beispiel:
Es liege für eine Kreditwürdigkeitsprüfung eine Menge von Datensätzen vor,
die jeweils einen Kunden beschreiben. Dabei werden 70 % der Datensätze
als kreditwürdig und 30 % der Datensätze als nicht-kreditwürdig bezeichnet.
Durch eine Aufteilung des Gesamtdatenbestandes anhand eines Merkmales
sollen zwei Teilmengen derart entstehen, dass sich in der einen Teilmenge
mehr Datensätze mit der Eigenschaft kreditwürdig und in der anderen
Teilmenge mehr Datensätze mit der Eigenschaft nicht-kreditwürdig befinden.
Beide Teilmengen weisen damit eine bessere Homogenität bezüglich der
Klassifikationsvariablen auf als der Ausgangsdatenbestand.
PD Dr. P. Gluchowski
Folie 231
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Datensätze Gesamt:
Datensätze Klasse X:
Datensätze Klasse Y:
Attribut A: erfüllt Bedingung K1
Attribut A: erfüllt nicht Bedingung K1
Datensätze Gesamt:
Datensätze Klasse X:
Datensätze Klasse Y:
600
280
320
Attribut B: erfüllt
Bedingung K2
Datensätze Gesamt:
Datensätze Klasse X:
Datensätze Klasse Y:
PD Dr. P. Gluchowski
Folie 232
1000
300
700
Datensätze Gesamt:
Datensätze Klasse X:
Datensätze Klasse Y:
400
20
380
Attribut B: erfüllt nicht Bedingung K2
300
30
270
Datensätze Gesamt:
Datensätze Klasse X:
Datensätze Klasse Y:
300
260
40
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Regeln:
Nachdem ein derartiger Baum generiert worden ist, können nun anhand des
Baumes neuen Datensätzen deren voraussichtliche Klassen zugeordnet
werden.
In obigem Beispiel sind dies:
WENN Attribut A die Bedingung K1 erfüllt DANN gehört das zugehörige
Objekt der Klasse Y an.
WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B nicht
Bedingung K2 DANN gehört das zugehörige Objekt der Klasse X an.
die
WENN Attribut A nicht die Bedingung K1 erfüllt und Attribut B die Bedingung
K2 DANN gehört das zugehörige Objekt der Klasse Y an.
PD Dr. P. Gluchowski
Folie 233
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Die Entscheidungsbaumverfahren lassen sich durch die zugehörigen
Splitkriterien unterscheiden. Die Splitkriterien basieren auf einem
Homogenitätsmaß, welches etwa mit Hilfe der relativen Häufigkeit pi des
Auftretens bestimmter Datensätze einer bestimmten Klasse i definiert
werden kann.
Beispiel:
Von 1000 Datensätzen sind 300 der Klasse 1, 500 der Klasse 2 und 200 der
Klasse 3 zugeordnet. Damit gilt für den Datenbestand:
p1 = 30 %, p2 = 50 % und p3 = 20 %
Das Ziel ist nun, die Datensätze einzelnen Knoten zuzuordnen und dabei
möglichst ausgeprägte Klassenzugehörigkeiten zu erreichen. Je
unterschiedlicher die knotenspezifischen Häufigkeiten sind, desto
homogener ist der Knoten. Ideal wäre eine Verteilung (100%, 0 %, 0 %).
PD Dr. P. Gluchowski
Folie 234
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Beispiel Mailingaktion
In einem Versandhaus soll das Database-Marketing die Kunden
identifizieren, die mit hoher Wahrscheinlichkeit auf die Zusendung eines
Katalogs mit einem Kauf reagieren.
Die Kunden werden in die Kaufgruppen: Damentextilien, Herren- und
Kindertextilien, Haushalt und Geschenkartikel eingeteilt.
Je nachdem, ob sie wenig, viel oder mittel viele Textilien oder
Geschenkartikel mit einem niedrigem, mittlerem oder hohem
Durchschnittspreis gekauft haben, soll ihnen ein T-Katalog, ein G-Katalog
oder kein (N-)Katalog zugeschickt werden.
12.01.2005
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
12 Kundenprofile
Data Mining Entscheidungsbaumverfahren
Kunden
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
12.01.2005
Textilien
Geschenkartikel D-Preis
mittel
wenig
mittel
viel
wenig
viel
wenig
mittel
viel
wenig
wenig
viel
wenig
mittel
viel
wenig
mittel
mittel
viel
wenig
wenig
wenig
viel
viel
mittel
niedrig
mittel
hoch
hoch
niedrig
niedrig
niedrig
niedrig
hoch
mittel
hoch
Katalog
T
N
TG
T
G
TG
G
N
T
N
G
TG
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
1,..,12
Geschenkartikel
1
Textilien
N
N
12.01.2005
w
2
1, 4, 8, 9, 10
m
1, 8
n
8
mittel
viel
m
T
1
v
Textilien
n
T
4, 9
h
?
2, 6
w
2
N
3
2, 5, 6
Preis
10
Preis
wenig
m
?
m
h
v
?
G
5
G
Textilien
w
7, 11
3, 7, 11, 12
m
3
v
12
TG TG
6
TG
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining Entscheidungsbaumverfahren
Geschenkartikel
1, 4, 8, 9, 10
Textilien
m
1, 8
m
Preis
1
T
12.01.2005
1,..,12
wenig
Regel:
IF Geschenkartikel: wenig AND
Textilien: mittel AND Preis: mittel
THEN T
Generierte Klassifikationsregeln !
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Assoziationsanalyse
"Welche Attribute im Datenbestand hängen zusammen ?"
"Parallele" Assoziation
Zwei Artikel werden gleichzeitig gekauft ("Windeln und Bier")
Sequentielle Assoziation
Tätigkeiten werden nacheinander ausgeführt ("Betrugsfälle")
PD Dr. P. Gluchowski
Folie 244
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Assoziationsanalyse
Regel: Wenn A dann auch B
Zwei Maße werden berechnet:
1. Support Factor:
= Anzahl der Transaktionen, in denen
A und B vorkommen / Anzahl aller
Transaktionen
2. Confidence Factor: = Anzahl der Transaktionen, in denen
A und B vorkommen / Anzahl der
Transaktionen mit A
- berechne alle Attributkombinationen mit Support > x %
- analysiere die Konfidenz der gefundenen Regeln
PD Dr. P. Gluchowski
Folie 245
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Assoziationsanalyse
Beispiel Kassenbonanalyse
Kauf
Artikel
A B C D E
1 1 0 1 1 0
2 1 1 1 0 0
3
4
5
0
1
0
1
1
1
1
0
1
0
1
0
1
0
1
Support (A; B) = 2/5
PD Dr. P. Gluchowski
246Dr. Peter Chamoni
© Folie
Prof.
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Assoziationsanalyse
Beispiel Kassenbonanalyse
Kauf
Artikel
A B C D E
1 1 0 1 1 0
2 1 1 1 0 0
3
4
5
0
1
0
1
1
1
1
0
1
0
1
0
Support (A; B) = 2/5
PD Dr. P. Gluchowski
247Dr. Peter Chamoni
© Folie
Prof.
1
0
1
Support (B; C) = 3/5
Ruhr-Universität Bochum
Lehrstuhl für Wirtschaftsinformatik
Prof. Dr. Roland Gabriel
Data Mining - Assoziationsanalyse
Beispiel Kassenbonanalyse
Artikel
Kauf
A B C D E
1
1
0
1
0
0
1
1
1
1
1
1
1
0
1
1
0
0
1
0
0
0
1
0
1
Support (A; B) = 2/5
Support (B; C) = 3/5
Confidence (A; B) = 2/3
Confidence (B; C) = 3/4
PD Dr. P. Gluchowski
Folie 248
1
2
3
4
5
Regel: In 66 % der
Fälle, in denen A
gekauft wird, wird
auch B gekauft.
Dieses kommt in 40 %
der Transaktionen vor
Ruhr-Universität Bochum
Herunterladen