Data Mining

Werbung
Seminar : Data Warehouse und analytische Datenbanken
DATA MINING
26.02.2012
Naim Tamtam
Gliederung
1.
2.
3.
4.
Einführung
Einführung
Aufgaben des Data Mining
Anwendungen
Visualisierung
Data Mining
26.02.2012
2
Motivation
Unmengen von Daten werden produziert bzw. gespeichert
Manuelle Analyse nicht mehr möglich!
Data Mining
26.02.2012
Seite 3
Einführung
Data Mining  Graben in Daten
Wissen  Gold
Wissen : nützlich, verständlich, neu
Data Mining
26.02.2012
Seite 4
Ausgewählte Definitionen
„Data mining is the process of discovering meaningful new
correlations, patterns and trends by sifting through large
amounts of data stored in repositories, using pattern
recognition technologies as well as statistical and
mathematical techniques.“
Gartner Group
„Data Mining ist die Anwendung spezifischer Algorithmen
zur Extraktion von Mustern aus Daten“
U.Fayyad
Data Mining
26.02.2012
Seite 5
Data Mining als…
Data Mining
Prozess
Große
Datenmengen
Extraktion von
Wissen
Anwendung
algorithmischer
Methoden
26.02.2012
Seite 6
Data Mining und Knowledge Discovery in
Databases
Data Mining und KDD als synonym
„nicht-trivialer Prozess zur Identifikation von gültigen,
neuartigen , potentiell nützlichen und allgemein
verständlichen Mustern in Daten“
U. Fayyad
Data Mining als ein Schritt vom KDD
Data Mining
26.02.2012
Seite 7
KDD-Prozess
1.
Selektion : Datenauswahl und Datenintegration
2.
Vorverarbeitung : Datenbereinigung (fehlender Werte, Inkonsistenz,
Redundanz,Ausreißer)
3.
Datentransformation : Normierung, Aggregation, Generalisierung
4.
Data Mining
5.
Interpretation und Evaluierung
Ca. 80 % des gesamten
Aufwandes
Data Mining
26.02.2012
Seite 8
Data Mining und Data Warehousing
Data Warehouse als Basis für Data Mining-Verfahren
OLAP-Tools,
Ad Hoc -Abfragen
Data Mining
Data Warehouse
Datenbereinigung, Datenintegration…
Operative Ebene
Data Mining
Externe Daten
26.02.2012
Seite 9
Data Mining und OLAP
OLAP
Data Mining
Suche
interaktiv
automatisiert
Ziel
Aggregation
Versteckte Muster entdecken
Data Warehouse
DW, transaktional , räumlich ,
textuell , Multimedia …
Daten
On-line Analytical Mining
Integration des OLAP in Data Mining- Verfahren
Data Mining
26.02.2012
Seite 10
1.
2.
3.
4.
Einführung
Aufgabendes
des Data
DataMining
Mining
Aufgaben
Anwendungen
Visualisierungstechniken
Data Mining
26.02.2012
Seite 11
Übersicht


Prädiktiv (vorhersagend)
 Daten analysieren
 Regelmäßigkeiten
identifizieren
 Verhalten neuer
Datensätze vorhersagen
Beispiele:
 Klassifikation
 Abhängigkeitsanalyse
Data Mining

Deskriptiv (beschreibend)
 Daten analysieren und
zusammenfassen
 Gefundene Strukturen
präsentieren

Beispiele
 Clusteranalyse
26.02.2012
Seite 12
Klassifikation
Zuordnung eines Objektes zu einer Klasse

Gegeben : Menge von Datensätze mit bestimmten Attributen
Speziale Klasse

Gesucht : ein Modell, die Klasse neuer Datensätze vorhersagt
Data Mining
26.02.2012
Seite 13
Klassifikation
Trainingsphase
Validierungsphase
Trainingsdaten
Testdaten
Lernen
Modellbildung
klassifizieren
Genauigkeit
Neue Instanz
Data Mining
26.02.2012
Seite 14
Clusteranalyse



Aufteilung von Objekten in möglichst homogenen Gruppen
Cluster :
-Objekte innerhalb einem Cluster
möglichst ähnlich
- Objekte verschiedener Clustern
möglichst unterschiedlich
Nicht überwachtes Lernen
Data Mining
26.02.2012
Seite 15
Beispiel
Schulden
Cluster 1
Cluster 2
o
oo
o
o
o o o o
oo
o
o o
o
o o oo
o
Cluster 3
Einkommen
Data Mining
26.02.2012
Seite 16
Abhängigkeitsanalyse



Strukturelle Zusammenhänge in einer Menge von
Transaktionen identifizieren und beschreiben
Gegeben: Menge von Transaktionen T
Menge von Items I
Formal : A  B ; A,B I und disjunkt
Data Mining
26.02.2012
Seite 17
Warenkorbanalyse
Welche Produkte werden häufig gemeinsam gekauft?
I ={Milch, Brot, Windel, Bier, Eier, Cola}
ID
Transaktion
1
Milch, Brot
2
Brot, Windel, Bier, Eier
3
Milch , Windel, Bier , Cola
4
Brot, Milch, Windel , Bier
5
Brot, Milch, Windel, Cola
{Windel }  {Bier }[Support  60%, Confidence  75%]
Data Mining
26.02.2012
Seite 18
1.
2.
3.
4.
Einführung
Aufgaben des Data Mining
Anwendungen
Anwendungen
Visualisierung
Data Mining
26.02.2012
Seite 19
E-commerce
Empfehlungsdienst
Empfehlung von Produkten in einem Online-Shop



„ Kollaboratives Filtern“
One-to-one Marketing
Clusteranalyse, Assoziationsregel
Data Mining
26.02.2012
Seite 20
Telekommunikation
Betrugserkennung
Abo-Betrug
illegaler Zugriff
rechtzeitig identifizieren
Anhand vorgegebener Merkmale des
Täters den Betrug vorhersagen
Klassifikation
Data Mining
Gegenwärtiges und vergangenes
Anrufverhalten des Täters vergleichen
Abweichungsanalyse
26.02.2012
Seite 21
1.
2.
3.
4.
Einführung
Aufgaben des Data Mining
Anwendungen
Visualisierungstechniken
Visualisierung
Data Mining
26.02.2012
Seite 22
Visualisierung



Grundidee:
 Graphische Darstellung
 Menschen in die Analyse einbeziehen
leichte Erkennung von Mustern, Ausreißer, Datenverteilung...
Visualisierung
 Datenvisualisierung
 Wissensvisualisierung
Data Mining
26.02.2012
Seite 23
Eindimensionale Daten (ThemeRiver)
Data Mining
26.02.2012
Seite 24
Streudiagramm
Seminar :Data Mining
26.02.2012
Seite 25
Parallele Koordinaten
Deutschland
2008
Video
7500
6000
Österreich
2007
Audio
Schweiz
3000
Großbritannien
Land
Data Mining
2006
Jahr
TV
Produkt
0
Umsatz
26.02.2012
Seite 26
Fragen, Anmerkungen!!!
Danke für Ihre Aufmerksamkeit
Herunterladen