Knowledge Discovery in Databases

Werbung
DATABASE
SYSTEMS
GROUP
Ludwig-Maximilians-Universität München
Institut für Informatik
Lehr- und Forschungseinheit für Datenbanksysteme
Skript
p zur Vorlesung
g
Knowledge Discovery in Databases
im Wintersemester 2010/2011
Kapitel 1: Einleitung
Vorlesung+Übungen:
PD Dr. Peer Kröger, Dr. Arthur Zimek
Skript © 2003 Johannes Aßfalg, Christian Böhm, Karsten Borgwardt, Martin Ester, Eshref
Januzaj, Karin Kailing, Peer Kröger, Jörg Sander, Matthias Schubert, Arthur Zimek
http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
1
Organisatorisches
• Aktuelles
–
–
Vorlesung: Donnerstag, 9.30-12.00 Uhr (Raum 002 Schellingstr.)
Übung:
Freitag, 12
12-14
14 Uhr (Raum M 001 Hauptgebäude)
Freitag, 14-16 Uhr (Raum M 001 Hauptgebäude)
• Anmeldung für
fü die
i Klausur auff der Homepage unter
http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)
• Klausur: Der Stoff der Klausur wird in der Vorlesung
und in den Übungen besprochen.
besprochen
(Das Skript ist lediglich eine Lernhilfe)
Knowledge Discovery in Databases I: Einführung
2
DATABASE
SYSTEMS
GROUP
Motivation
Digitalkameras
g
Kreditkarten
Scanner-Kassen
Scanner
Kassen
Astronomie
Telefongesellschaft
WWW
• Riesige Datenmengen werden in Datenbanken gesammelt
• Analysen können nicht mehr manuell durchgeführt werden
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
3
Von den Daten zum Wissen
Daten
Methode
Wissen
Verbindungsd.
Rechnungserst
Rechnungserst.
Outlier Detection
Betrug
Transaktionen
Abrechnung
Klassifikation
Kreditwürdigkeit
Transaktionen
L
Lagerhaltung
h lt
Assoziationsregeln
g
Gemeinsam
gekaufte
k ft Produkte
P d kt
Bilddaten
Kataloge
Klassifikation
Klasse eines Sterns
Knowledge Discovery in Databases I: Einführung
4
DATABASE
SYSTEMS
GROUP
Definition KDD
[Fayyad, Piatetsky-Shapiro & Smyth 1996]
Knowledge Discovery in Databases (KDD) ist der Prozess der
(semi-) automatischen Extraktion von Wissen aus Datenbanken, das
• gültig
• bisher unbekannt
• und potentiell nützlich ist.
Bemerkungen:
• (semi-)
(
i ) automatisch:
i h im
i Unterschied
U t
hi d zu manueller
ll Analyse.
A l
Häufig ist trotzdem Interaktion mit dem Benutzer nötig.
• gültig:
ülti im
i statistischen
t ti ti h Sinn.
Si
• bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.
• potentiell nützlich: für eine gegebene Anwendung
Anwendung.
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
5
Teilbereiche KDD
Statistik
modellbasierte Inferenzen
Schwerpunkt auf numerischen Daten
[Berthold & Hand 1999]
Machine Learning
Such-/Optimierungsverfahren
Schwerpunkt auf symbolischen Daten
[Mitchell 1997]
KDD
Datenbanksysteme
Skalierbarkeit für große Datenmengen
Neue Datentypen (Webdaten, Micro-Arrays, ...)
Integration mit kommerziellen Datenbanksystemen
[[Chen,, Han & Yu 1996]]
Knowledge Discovery in Databases I: Einführung
6
DATABASE
SYSTEMS
GROUP
Das KDD-Prozessmodell
Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth
Fokussieren Vorverarbeitung
Transformation
• Bewertu
B
ung der Interesssanthheit durch den B
Benutzeer
•V
Validierrung: Staatistischhe
Prüfungg der Moodelle
P
Wissen
Evvaluatiion
• Generie
G
erung deer Musteer
bbzw. Moodelle
Data Miining
• Diskreti
D
isierungg numeriisscher M
Merkmalee
•A
Ableitunng neueer Merkm
male
•S
Selektioon relevaanter M
Merkm.
Trransforrmationn
• Integrat
I
tion vonn Daten aaus
uunterschhiedlichhen Quelllen
•V
Vervollsständiguung
•K
Konsistenzprüffung
Vorverarrbeitunng:
Vo
•B
Beschafffung deer Datenn
•V
Verwalttung (Fille/DB)
•S
Selektioon relevaanter Daaten
Evaluation
Muster
D t b k
Datenbank
Fookussieeren:
Data
Mining
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
7
Data Mining Aufgaben
Die wichtigsten Data-Mining-Techniken:
Supervised: z.B. Klassifikation, Regression, Outlier Detection
Ein Ergebnis
Ergebnis-Merkmal
Merkmal soll aufgrund von Vorwissen gelernt/geschätzt werden.
Das Vorwissen steht typischerweise als Trainingsdaten bereit.
Unsupervised: z.B.
z B Clustering,
Clustering Outlier Detection,
Detection Assoziationsregeln
Die Datenmenge soll ohne weiteres Vorwissen in Gruppen unterteilt werden.
Die Gruppen haben je nach Aufgabe unterschiedliche Charakteristika.
Die meisten Verfahren arbeiten auf sog. Merkmalsvektoren. Darüber
hinaus gibt es zahlreiche Verfahren,
Verfahren die nicht auf Merkmalsvektoren
Merkmalsvektoren,
sondern z.B. auf Texten, Mengen, Graphen arbeiten.
Knowledge Discovery in Databases I: Einführung
8
Clustering
Höhe [cm
H
m]
DATABASE
SYSTEMS
GROUP
Cluster 2: Nägel
Cluster 1: Klammern
Breite [cm]
Clustering
Cl
t i heißt:
h ißt Zerlegung
Z l
einer
i
Menge
M
von Objekten
Obj kt (bzw.
(b
FeatureF t
Vektoren) in Teilmengen (Cluster) ähnlicher Objekte
Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche
Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen
Knowledge Discovery in Databases I: Einführung
Anwendung: Thematische Karten
Aufnahme der Erdoberfläche
in 5 verschiedenen Spektren
Wert in Band
d2
DATABASE
SYSTEMS
GROUP
9
Pixel (x1,y1)
Pixel (x2,y2)
Wert in Band 1
Wert iin Band
d2
Cluster-Analyse
Rücktransformation
in xy-Koordinaten
Farbcodierung
F
b di
nachh
Cluster-Zugehörigkeit
W t in
Wert
i Band
B d1
Knowledge Discovery in Databases I: Einführung
10
DATABASE
SYSTEMS
GROUP
Outlier Detection
Datenfehler?
Betrug?
Outlier
O
tli Detection
D t ti bedeutet:
b d t t
Ermittlung von untypischen Daten
Idee: Outlier könnten hindeuten auf
• Missbrauch etwa bei
• Kreditkarten
• Telekommunikation
• Datenfehler
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
11
Anwendung
• Analyse der SAT
SAT.1
1-Ran-Fußball-Datenbank
Ran Fußball Datenbank (Saison 1998/99)
– 375 Spieler
– Primäre Attribute: Name, Einsätze, Tore, Spielposition (Torwart,
Abwehr, Mittelfeld, Sturm),
– Abgeleitetes Attribut: Tore pro Spiel
– Outlier Analyse auf (Spielposition, Einsätze, Tore pro Spiel)
• Ergebnis:
g
Top
p 5 Outliers
Rang
Name
Einsätze
Tore
Position
1
Michael Preetz
34
23
Sturm
2
Michael Schjönberg
15
6
Abwehr
Abwehrspieler mit den meisten
Toren
3
Hans-Jörg Butt
34
7
Torwart
Torwart mit den meisten Toren
4
Ulf Kirsten
31
19
Sturm
2. Torschützenkönig
5
Giovanne Elber
21
13
Sturm
Hohe Tore-pro-Spiel Quote
Knowledge Discovery in Databases I: Einführung
Erklärung
Torschützenkönig
12
DATABASE
SYSTEMS
GROUP
Klassifikation
Schrauben
Nägel
Kl
Klammern
Trainingsdaten
Neue Objekte
j
Aufgabe:
Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um
neue Objekte nur aufgrund der Merkmale zu klassifizieren
D E
Das
Ergebnismerkmal
b i
k l (Klassenvariable)
(Kl
i bl ) ist
i nominal
i l (kategorisch)
(k
h)
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
13
Anwendung: Neugeborenen-Screening
Blutprobe
p
des
Neugeborenen
Massenspektrometrie
p
Metabolitenspektrum
p
14 analysierte Aminosäuren:
alanine
arginine
argininosuccinate
citrulline
glutamate
glycine
methionine
phenylalanine
pyroglutamate
serine
tyrosine
valine
leucine+isoleucine
ornitine
Knowledge Discovery in Databases I: Einführung
Datenbank
14
DATABASE
SYSTEMS
GROUP
Anwendung: Neugeborenen-Screening
E b i
Ergebnis:
• Neuer diagnostischer Test
• Glutamin als bisher
unbekannter Marker
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
15
Anwendung: Gewebeklassifikation
CBV
•
•
•
•
•
Schwarz:
Blau:
Grün:
Rot:
Dunkelrot:
Ventrikel + Hintergrund
Gewebe 1
Gewebe 2
Gewebe 3
Große Gefäße
Blau
TTP
RVRV
Grün
Rot
18.5
16.5
TTP
(s)
20.5
CBV
(ml/100g)
3.0
3.1
3.6
CBF
18
(ml/100g/min)
21
28
RV
23
21
30
Ergebnis:
g
s Klassifikation
a
a o cerebralen
b a
Gewebes
b anhand
a a d
funktioneller Parameter mittels dynamic CT möglich.
Knowledge Discovery in Databases I: Einführung
16
DATABASE
SYSTEMS
GROUP
Regression
0
Grad der Erkrankung
5
Neue Objekte
Aufgabe:
A
f b
Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt
b
bzw.
geschätzt
hät t werden
d soll,
ll ist
i t metrisch
ti h
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
17
Anwendung: Precision Farming
Ertrag
Bodenparameter
Wetter
Düngemittel
g
…
2D Ertragskurve
Wasserkapazität
Düngemittel
• Erstellen einer Ertragskurve, die von mehreren Parametern wie
Bodenbeschaffenheit, Wetter und Düngemittelausbringung abhängt.
• Erst eine geeignete Anpassung der Düngemittelausbringung kann eine
ertragsoptimale Nutzung in Abhängigkeit von Umweltfaktoren bewirken.
• Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.
Knowledge Discovery in Databases I: Einführung
18
DATABASE
SYSTEMS
GROUP
Assoziationsregeln
aa,b,c,d,e
b,c,d e
b,c,d
a,b,c,d
a,b,c,d,e
a,c,e,f
dcef
d,c,e,f
a,b,c,d,f
In 5 von 7 (ca. 71 %)
der Fälle kommt b,c,d
zusammen vor.
In 5 von 5 Fällen
(100 %) gilt:
Wenn b,c in der Menge,
dann ist auch d in der
Menge
Menge.
Aufgabe:
Finde alle Regeln in einer Datenbank von diskreten Mengen der
folgenden Art:
Wenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einer
W h h i li hk i vom >X
Wahrscheinlichkeit
X % iin der
d Menge
M
enthalten.
h l
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
19
Anwendung: Warenkorbanalyse
evtl. Verallgemeinerung:
• Paprika-Chips
ik hi
Knabbereien
bb i
• Anreichern mit Kundendaten
Data
Warehouse
Ergebnis:
Warenkorb =
Menge der gleichzeitig
bezahlten Waren
Assoziationsregeln
• Häufig zusammen gekaufte Artikel können im Supermarkt besser zueinander
positioniert werden: Windeln werden häufig mit Bierkästen zusammen gekauft
=> Positioniere Bier auf dem Weg von Windeln zur Kasse
• Generiere Empfehlungen für Kunden mit ähnlichen Warenkörbe:
Kunden die „Krieg der Sterne“ I-VI gekauft haben, sind vielleicht auch
an „Herr der Ringe“ I-III interessiert.
Knowledge Discovery in Databases I: Einführung
20
Überblick über die Vorlesung (Momentaner Stand der
DATABASE
SYSTEMS
GROUP
g
Planung)
1. Einleitung
6. Outlier Detection
2. Merkmalsräume
7. Assoziationsregeln
3. Klassifikation
8 Data Warehousing
8.
und Generalisierung
4 Regression
4.
5. Clustering
g
9. High-Performance Data Mining
10 Ausblick
10.
Knowledge Discovery in Databases I: Einführung
DATABASE
SYSTEMS
GROUP
21
Literatur
Lehrbuch zur Vorlesung (deutsch):
Ester M
M., Sander JJ.
Knowledge Discovery in Databases: Techniken und Anwendungen
Springer Verlag, September 2000
Weitere Bücher (englisch):
Han J., Kamber M.
Data Mining: Concepts and Techniques
Morgan Kaufmann Publishers, March 2006
Tan P.-N., Steinbach M., Kumar V.
Introduction to Data Mining
Addison-Wesley, 2006
Mitchell T. M.
Machine Learning
McGraw-Hill, 1997
Witten II. H
H., Frank E.
E
Data Mining: Practical Machine Learning Tools and Techniques
2. Auflage. Morgan Kaufmann Publishers, 2005
Knowledge Discovery in Databases I: Einführung
22
Herunterladen