Data Mining und Knowledge Discovery in Databases

Werbung
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Data Mining
und
Knowledge Discovery in Databases
1
Begriffsabgrenzungen .........................................................2
2
Phasen der KDD .................................................................3
3
Datenvorverarbeitung..........................................................4
3.1
Datenproblematik.........................................................4
3.2
Möglichkeiten der Datenvorverarbeitung .....................4
4
Data Mining Ziele ................................................................5
5
Wissenschaftliche Einordnung der KDD .............................5
6
Begriffsdefinitionen..............................................................6
7
Data Mining Methoden ........................................................8
8
Beispiele für KDD-Systeme.................................................9
9
Hierarchisches Clustering .................................................10
10 Partitionierendes Clustering ..............................................14
11 Entscheidungsbäume........................................................17
12 Bayes-Klassifikation ..........................................................19
Seite 1 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
1 Begriffsabgrenzungen
Definition: Knowledge Discovery in Databases (KDD)
Knowledge discovery in databases is the nontrivial
process of indentifying valid, novel, potentially useful, and
ultimately understandable patterns in data.
Definition: Data Mining
Data Mining ist ein einzelner Schritt im KDD Prozess,
innerhalb dessen bestimmte Data Mining Algorithmen zur
Anwendung kommen, die selbständig Annahmen
generieren, diese Annahmen prüfen und dem Anwender
dann die relevanten Ergebnisse in verständlicher Form
präsentieren.
Seite 2 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
2 Phasen der KDD
Analyse des
Anwendungsgebietes
Datenzugriff
Anforderungs- und
Machbarkeitsanalyse
Datenvorverarbeitung
Daten
Umsetzung
Exploration
Interpretation und
Bewertung
Anwendung von Data
Mining Methoden
Einzelnen Phasen eines KDD-Prozess:
• Anforderungs- und Machbarkeitsanalyse
• Analyse des Anwendungsgebietes
• Datenzugriff
• Datenvorverarbeitung
• Exploration
• Anwendung von Data Mining Methoden
• Interpretation und Bewertung
• Umsetzung
Seite 3 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
3 Datenvorverarbeitung
3.1 Datenproblematik
• Unvollständigkeit und Spärlichkeit der Daten
• Dynamik der Daten
• Datenschmutz
• Redundanz
• Irrelevanten Bestände
• Datenvolumen
3.2 Möglichkeiten der Datenvorverarbeitung
• Datentransformation
• Bearbeitung unreiner Daten
• Konstruktion neuer Informationen
• Datenselektion
Seite 4 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
4 Data Mining Ziele
• Cluster-Analyse bzw. Segmentierung
• Klassifikation
• Konzeptbeschreibung
• Prognose
• Datenbeschreibung und –zusammenfassung
• Erkennung von Abweichungen
• Abhängigkeitsanalyse
5 Wissenschaftliche Einordnung der KDD
Datenbasen
Experten
Systeme
MaschinenLernen
KDD
Visualisierung
Seite 5 von 22
Statistik
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
6 Begriffsdefinitionen
Definition: Datensatz bzw. Objekt
Ein logischer Datensatz wird durch ein Tupel
X i = ( xi ,1 ,..., xi ,m ) von m ∈ IN Attributen dargestellt. Dabei
umfasst die gesamte Datenbasis n Datensätze, nämlich
X1,..., X n .
Die Gesamtheit aller Datensätze wird durch die Menge
der Attribute A1,..., Am beschrieben, wobei für jedes
Attribut A j mit j = 1,..., m ein eigener Wertebereich W ( A j )
existiert, aus dem die jeweiligen Ausprägungen der
einzelnen Datensätze stammen xi , j ∈ W ( A j ) für i = 1,..., n .
Für den Wertebereich aller Attribute
zusammengenommen ergibt sich dann entsprechend
A = W ( A1 ) × ... × W ( Am ) = Χ im=1W ( Ai ) , auch Merkmalsraum
genannt.
Seite 6 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Numerische Attribute
• Binäre Attribute
z. B. die Werte 0 oder 1
• Diskrete Attribute
z. B. die ganzen Zahlen
• Kontinuierliche Attribute
z. B. die reellen Zahlen
Nominale Attribute
• Geordnete Attribute
z.B. niedrig, mittel, hoch
• Ungeordnete Attribute
z. B. die Produkte A, B und C
Seite 7 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
7 Data Mining Methoden
• Freie und überwachte Data Mining Methoden
• Hierarchisches Clustering
• Partitionierendes Clustering
• Entscheidungsbäume
• Bayes-Klassifikation
Seite 8 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
8 Beispiele für KDD-Systeme
• SKICAT
(Sky Image Cataloging and Analysis Tool)
• TASA
(Telecommunication Network Alarm Sequence
Analyzer)
• Health-KEFIR
(Key Findings Reporter)
• Steuerung der Prozesstechnik in der Zellstoff- und
Papierindustrie
• Klassifikation von Verkehrszuständen
• Bildverarbeitung – Aufbereitung von Röntgenbildern
Seite 9 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
9 Hierarchisches Clustering
Agglomeratives hierarchisches Clustering
Divisives hierarchisches Clustering
Metrik:

p
x − y =  ∑ xi − yi 
 i =1

n
1
p
x, y ∈ IR n
Single Linkage Methode
C1 − C 2 = min x∈C1 , y∈C 2 x − y
Complete Linkage Methode
C1 − C 2 = max x∈C1 , y∈C2 x − y
Average Linkage Methode
C1 − C2 =
1
∑ x− y
card (C1 ) ⋅ card (C2 ) x∈C1 , y∈C 2
Seite 10 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Algorithmus: Hierarchisches Clustering
Gegeben: n Datensätze ( X 1 ,..., X n ) , ein Distanzmaß und
die Cluster-Anzahl k
- Starte mit n Clustern, wobei jeder aus genau einem
Datensatz besteht
- Berechne für alle Paar von Clustern die Distanzen
zwischen ihnen und wähle dasjenige Paar von Clustern,
das die geringste Distanz aufweist. Fasse diese beiden
Cluster zu einem Cluster zusammen und reduziere die
Anzahl der Cluster um eins.
- Wiederhole Schritt 2 bis die gewünschte Cluster-Anzahl
erreicht ist.
Beispiel für hierarchisches Clustering:
Datensatz X 1
Attribut 1
1
Attribut 2
1
Datensatz X 2
4,3
4,1
Datensatz X 3
1,9
2,1
Datensatz X 4
3,7
5,2
Datensatz X 5
0,7
2,2
Datensatz X 6
4,2
4,1


d ( X i , X j ) = di , j =  ∑ (X i , k − X j , k )2 
 k =1

2
Seite 11 von 22
1
2
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
 0 3,86 1,42 4,99 1,53 4,46 


0
2,44 1,17 3,22 0,9 


0
3,58 1,2 3,05 

D=
0
4,24 1,21 


0
3,98 



0 

X1
d1,3
X3
Cluster 1
d 3, 5
X5
X2
d 2,6
X6
d 2, 4
Cluster 2
X4
Schritt 1
Schritt 2
Schritt 3
Seite 12 von 22
Schritt 4
Schritt 5
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Attribut 2
4
5
4
2
6
Cluster 2
3
2
5
3
1
1
Cluster 1
Attribut 1
1
2
Seite 13 von 22
3
4
5
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
10 Partitionierendes Clustering
Minimiere
n
k
∑∑
i=1 j =1
Xi − v j
mit den Datensätzen
Xi
und den Cluster-Zentren
vj
Algorithmus: K-means-Verfahren
Gegeben: n Datensätze ( X 1,..., X n ) , ein Distanzmaß und
die Cluster-Anzahl
k
- Wähle k verschiedene Datensätze als vorläufige
Zentren der Cluster. Dies können beliebige, neue
Datensätze oder aber auch k der insgesamt
n
ursprünglichen Datensätze sein.
- Ermittle für jeden Datensatz X l der Datensätze
( X 1,..., X n ) dasjenige Zentrum v j eines Clusters C j , so
dass die Distanz d ( X l , v j ) für alle Cluster-Zentren v1,..., vk
minimal wird.
- Berechne als neues Cluster-Zentrum v j als den
Mittelwert aus dem alten Cluster-Zentrum und dem
Datensatz X l .
- Wiederhole die Schritte 2 und 3 bis ein entsprechendes
Abbruch-Kriterium erreicht ist (z. B. die angestrebte
Cluster-Anzahl).
Seite 14 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
- Überprüfe für alle Datensätze ( X 1,..., X n ) , ob sie in
demjenigen Cluster liegen, zu dessen sie Zentrum sie die
geringste Distanz aufweisen. Andernfalls sind
Austauschungen vorzunehmen.
Beispiel für das K-means-Verfahren:
Datensatz X 1
Attribut 1
1
Attribut 2
1
Datensatz X 2
4,3
4,1
Datensatz X 3
1,9
2,1
Datensatz X 4
3,7
5,2
Datensatz X 5
0,7
2,2
Datensatz X 6
4,2
4,1
Cluster 1 mit den Datensätzen 1, 3 und 5 sowie dem
Cluster-Zentrum v1''' = (1,2 | 1,9)
Cluster 2 mit den Datensätzen 2, 4 und 6 sowie dem
Cluster-Zentrum v2''' = (3,9 | 4,4)
Seite 15 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Attribut 2
4
v2
5
v2'''
4
2
6
Cluster 2
3
2
'''
5 v1
3
1
v1
1
Cluster 1
Attribut 1
1
2
3
Seite 16 von 22
4
5
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
11 Entscheidungsbäume
IF Bedingung 1 (Bedingung 2 )(Bedingung 3) …
THEN
Entscheidung 1 (Entscheidung 2)(Entscheidung 3)
Beispiel für einen Entscheidungsbaum
Kunden
Textilien
Geschenkartikel Durchschnittspreis Katalogent
(M1)
(M2)
(M3)
scheidung
X1
mittel
wenig
mittel
T
X2
wenig
mittel
niedrig
N
X3
mittel
viel
mittel
TG
X4
viel
wenig
hoch
T
X5
wenig
mittel
hoch
G
X6
viel
mittel
niedrig
TG
X7
wenig
viel
niedrig
G
X8
mittel
wenig
niedrig
N
X9
viel
wenig
niedrig
T
X 10
wenig
wenig
hoch
N
X 11
wenig
viel
mittel
G
X 12
viel
viel
hoch
TG
Seite 17 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Datensätze 1,...,12
M2 = wenig
M2 = mittel
Datensätze 1,4,8,9,10
Datensätze 2,5,6
M1 =
wenig
M1 =
mittel
M1 =
viel
M1 =
wenig
10
1,8
4,9
2,6
N
M1 =
mittel
T
M3 = M3 =
niedrig mittel
8
1
N
T
M3 =
hoch
?
M3 = M3 =
niedrig mittel
2
?
M2 = viel
N
M3 =
hoch
6
?
TG
Seite 18 von 22
Datensätze 3,7,11,12
M1 =
viel
M1 =
wenig
M1 =
mittel
M1 =
viel
5
7,11
3
12
G
G
TG
TG
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
12 Bayes-Klassifikation
P(Ci )
Wahrscheinlichkeit, dass ein Objekt zur Klasse Ci gehört.
P( X )
Wahrscheinlichkeit, dass ein Objekt X vorliegt.
P(Ci | X )
Wahrscheinlichkeit, dass das Objekt X zur Klasse C i
gehört.
P( X | Ci )
Wahrscheinlichkeit, dass das Objekt X ist, unter der
Bedingung, dass das Objekt zur Klasse C i gehört.
Entscheidungsregel:
Ein Objekt X sei neu zu klassifizieren. Das Risiko einer
falschen Klassifikation soll dabei minimiert werden.
Dementsprechend wird das Objekt X der Klasse C j mit
j ∈ {1,..., k} zugeteilt, für die gilt:
P( X | C j ) ⋅ P (C j ) > P ( X | Ci ) ⋅ P(Ci ) für alle i ≠ j bzw.
P(C j | X ) > P(Ci | X )
Seite 19 von 22
für alle i ≠ j
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Beispiel Bayes-Klassifikation:
Kunden
Textilien
Geschenkartikel Durchschnittspreis Katalogent-
(M1)
(M2)
(M3)
scheidung
X1
0
-1
0
T
X2
-1
0
-1
N
X3
0
1
0
TG
X4
1
-1
1
T
X5
-1
0
1
G
X6
1
0
-1
TG
X7
-1
1
-1
G
X8
0
-1
-1
N
X9
1
-1
-1
T
X 10
-1
-1
1
N
X 11
-1
1
0
G
X 12
1
1
1
TG
Orthogonale Basisfunktionen
P * ( X | C1 ) =
1 1
3
+ x1 − x2
8 4
8
P * ( X | C2 ) =
1 3
1
− x1 + x2
8 8
4
P * ( X | C3 ) =
1 1
1
+ x1 + x2
8 4
4
P * ( X | C4 ) =
1 1
1
1
− x1 − x2 − x3
8 4
4
8
Seite 20 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
Endgültige Entscheidungsfunktionen:
D1 ( X ) =
1 1
3
+ x1 − x2
32 16
32
D2 ( X ) =
1
3
1
− x1 + x2
32 32
16
D3 ( X ) =
1 1
1
+ x1 + x2
32 16
16
D4 ( X ) =
1 1
1
1
− x1 − x2 − x3
32 16
16
32
Seite 21 von 22
Prof. Dr. M.-R. Wolff
BWL / Wirtschaftsinformatik
13 Literatur
• Adriaans, P. ; Data Mining;
Addison-Wesley, Harlow, England, 1997
• Chamoni, P. ;Analytische Informationssysteme - data
warehouse, on-line analytical processing, data mining;
Springer, Berlin, 1998
• Fayyad, U. M. [Hrsg.]
Advances in knowledge discovery and data mining;
AAAI Press , Menlo Park, California, 1996
• Lusti, M. ; Data warehousing und data mining - eine
Einführung in entscheidungsunterstützende Systeme;
Springer, Berlin, 1999
• Nakhaeizadeh, G. [Hrsg.]
Data Mining - theoretische Aspekte und Anwendungen;
Physica-Verlag, Heidelberg, 1998
• Runkler A. T. ; Information Mining - Methoden,
Algorithmen und Anwendungen intelligenter
Datenanalyse; Vieweg – Gabler, Braunschweig /
Wiesbaden, 2000
• Wittmann, T. ; Data mining - Entwicklung und Einsatz
robuster Verfahren für betriebswirtschaftliche
Anwendungen; Lang, Frankfurt am Main, 2000
Seite 22 von 22
Herunterladen