Data Mining - Fakultät für Mathematik und Informatik

Werbung
Seminar im Sommersemester 2005 „DATA WAREHOUSING“
Data Mining
Christian Knappe
Fachrichtung Wirtschaftsinformatik
Friedrich-Schiller-Universität Jena
Fakultät für Mathematik und Informatik
Lehrstuhl für Datenbanken und Informationssysteme
Lehrstuhlinhaber Prof. Dr. Klaus Küspert
Betreuung Dipl. –Inf. Thomas Müller
Inhalt
III.
IV.
V.
VI.
1.
2.
1.
2.
3.
4.
1.
2.
3.
4.
Einführung und Motivation
Daten und Technik
Was ist Data Mining?
Data Mining im Überblick
DM und Data Warehousing
DM vs. OLAP
Was leistet DM?
Anwendungsgebiete
Prozessmodelle im DM
KDD als Ausgangspunkt?
DM - Teil des Ganzen
CRISP-DM als moderne Referenz
Weitere Vorgehensweisen
Anwendungsübergreifend dank PMML
[email protected] // 2005
Montag, 13. Juni 2005
I.
Einführung und Motivation
1.
Daten und Technik
- Hohes Datenaufkommen
• Daten werden in riesigen Datenbanken gesammelt
• Manuelle Auswertung kaum noch möglich
[http://www.dbs.informatik.uni-muenchen.de/Lehre/KDD/index.html]
[email protected] // 2005
Montag, 13. Juni 2005
I.
Einführung und Motivation
1.
Daten und Technik
- Leistungsfähige Hardware
• steigende Geschwindigkeit
• steigende Kapazität
• relativ kostengünstig
[Grafik und mehr: Hans Moravec http://www.frc.ri.cmu.edu/users/hpm/]
[email protected] // 2005
Montag, 13. Juni 2005
I.
Einführung und Motivation
1.
Daten und Technik
- Komplexe Strukturen
„Von Matt Loney
ZDNet
31. Januar 2005, 09:37 Uhr
Urs Hölzle, Google VP of Engineering
Die Zahlen an sich sind schon überwältigend:
- Über vier Milliarden Webseiten, jede mit durchschnittlich 10 KByte, alle komplett
indiziert
- Bis zu 2000 Rechner in einem Cluster - Über 30 Cluster - Ein Petabyte Daten pro
Cluster
-Oberfläche in 104 Sprachen, unter anderem in Klingonisch und Tagalogisch
- Kontinuierlicher Durchsatz von 2 Gbit/s in einem Cluster
- Die Erwartung, dass pro Tag in jedem der größeren Cluster zwei Rechner ausfallen
(…)“
[email protected] // 2005
Montag, 13. Juni 2005
I.
Einführung und Motivation
1)
Was ist Data Mining?
- 2 Sichtweisen
[HaKa2000]
• DM als Teil eines Gesamtprozesses (KDD)
- Relativ „begrenzte“ Sicht auf DM
- Meist technisch
• DM als Gesamtprozess (moderne Definition)
- DM synonym für KDD
- CRISP-DM als Beispiel
- DM als Synergie aus Verfahren, Methoden und Vorgehensweise
[email protected] // 2005
Montag, 13. Juni 2005
I.
Einführung und Motivation
1)
Was ist Data Mining?
- Definitionsansätze
„Data mining is a problemsolving methodology that finds a logical or
mathematical description, eventually of a complex nature, of patterns
and regularities in a set of data.“[DeFo95]
„Data mining is a multidisciplinary field, drawing work from areas
including database technology, articial intelligence, machine learning,
neural networks, statistics, pattern recognition, knowledge based
systems,
knowledge acquisition, information retrieval, high performance
computing, and data visualization.“[HaKa2000]
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
1.
DM und Data Warehousing
- Datengrundlage aus Data Warehouse
[TCC]
• Unt. Datenquellen werden
im Data Warehouse
integriert
• Teile des DW (logisch
oder physisch) werden für
das Data Mining genutzt
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
1.
DM und Data Warehousing
- Data Mining auch ohne Data Warehouse
[TCC]
• DW ist nicht zwangsläufig
Voraussetzung für DM
• Unt. Datenquellen können
auch direkt in einen Data Mart
überführt werden
Fazit:
• Wahl je nach Anwendungsproblem und -umgebung
• Aufwand – Nutzen Fragestellung
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
1)
DM vs. OLAP
- induktiv vs. deduktiv
[TCC]
OLAP
Data Mining
• Ausgehend von Hypothese
• Daten werden genutzt um
Hypothesen aufzustellen
• Verifizierung der Hypothese
durch Anfragen auf den Daten
• Problematisch bei vielen
Variablen
• Findet evtl. Ansätze die Analyst
nicht bedacht hätte
Fazit
• Beide Vorgehensweisen können sich ergänzen
• DM findet Hypothesen – per OLAP können diese verifiziert werden
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
1.
Was leistet DM?
- Most Common Data Mining Tasks 1
[Larose2005]
• Description (Beschreibung)
- Beschreibung von Mustern und Trends in Daten
- Transparenz der Muster (Einfachheit)
- Intuitive Interpretation und Erklärung möglich
• Classification (Klassifikation)
- Nominale Zielvariable (Kategorie)
- Neues Objekt wird entsprechend klassifiziert (einer Kategorie zugeordnet)
- Klassifikationsregel wird auf Trainingsdaten erlernt
• Estimation (Schätzungen)
- Ähnlich Classification, jedoch ist Zielvariable numerisch
- „Punktschätzungen, Intervallschätzungen, lineare Regression, multiple
Regression“
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
1.
Was leistet DM?
- Most Common Data Mining Tasks 2
[Larose2005]
• Prediction (Vorhersage)
- Spezielle Ausprägung von Classification und Estimation
- Ergebnisse liegen in der Zukunft
• Clustering (Gruppenbildung)
- Gruppierung der Daten
- Innerhalb der Gruppen kleinstmögliche Differenz
- Zwischen den Gruppen größtmögliche Differenz (Abstand)
• Association (Verbindung/Kontakt/Zusammenarbeit)
- Aufdecken von Beziehungen zwischen Attributen
- Welche Attribute „hängen zusammen“
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
(i)
Anwendungsgebiete
[DF95]
- Chemie und Pharmazie
• Entwicklungsprozess ist stark auf Suche ausgerichtet
• Feldforschung
- Im Einzelhandel
• Marktsegmentierungen
• Kundenanalysen
• Marketingaktionen
[email protected] // 2005
Montag, 13. Juni 2005
1)
Data Mining im Überblick
(i)
Anwendungsgebiete
[DF95]
- Finanzwesen
• Kundenmanagement
• Vorhersage von Finanzentwicklungen
-„Remotely sensed Data“ (Messtechnik)
• Größter Datenumfang
• Mustererkennung
- Und weitere?
[email protected] // 2005
Montag, 13. Juni 2005
1.
Prozessmodelle im DM
1.
KDD als Ausgangspunkt
- Knowledge Discovery in (large) Databases
[Fayyad, Piatetsky-Shapiro & Smyth 1996]
Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-)
automatischen Extraktion von Wissen aus Datenbanken, welches
- gültig (im statistischen Sinn),
- bisher unbekannt (nicht explizit, kein „Allgemeinwissen“) und
- potentiell nützlich ist. (für eine gegebene Anwendung)
[email protected] // 2005
Montag, 13. Juni 2005
1.
Prozessmodelle im DM
1)
DM als Teil des Ganzen
Fokussieren:
Transformation:
Evaluation:
• Beschaffung der Daten
• Ableitung neuer Merkmale
• Verwaltung der Daten
• Selektion relevanter
Merkmale
• Bewertung der
Interessantheit durch den
Nutzer
• Selektion relevanter Daten
• Statistische Prüfung der
Modelle
Vorverarbeitung:
Data Mining:
• Datenintegration
• Suche nach Mustern bzw.
• Konsistenzprüfung
[email protected] // 2005
Modellen (techn. Def.)
Montag, 13. Juni 2005
1.
Prozessmodelle im DM
1.
CRISP-DM als moderne Referenz
- Ein einheitlicher Standard
• CRoss- Industrie Standart Process for Data Mining
• Seit 1997 Konsortium aus Data Mining Anbietern und Nutzern
- DaimlerChrysler AG, Germany
- OHRA Verzekering en Bankk Groep B.V., Netherlands
- NCR Systems Engineering Copenhagen , Denmark
- SPSS Inc. seit 1998 über Integral Solutions Limited, UK
- Europäische Union im Rahmen des ESPRIT-Programms
[email protected] // 2005
Montag, 13. Juni 2005
1.
Prozessmodelle im DM
1.
CRISP-DM als moderne Referenz
• Data Mining Lebenszyklus
• Phasenorientiert
• Iteratives Vorgehen möglich
• Zielorientiert
[http://www.crisp-dm.org/index.htm]
[email protected] // 2005
Montag, 13. Juni 2005
1.
Prozessmodelle im DM
(i)
Weitere Vorgehensweisen
SPSS bedient sich der „5 A‘s“
SAS benutzt „SEMMA“
• Assess
• Access
• Analyze
• Act
• Automate
• Sample
• Explore
• Modify
• Model
• Assess
[email protected] // 2005
Montag, 13. Juni 2005
(i)
Anwendungsübergreifend dank PMML
- Predictive Modelling Markup Language
• Modellbeschreibungssprache (Definition eines Modells)
• Bietet einheitlichen Standard
• Einfache Weitergabe und Nutzbarkeit der Modelle
• XML- Basiert
[http://www.dmg.org/index.html]
[email protected] // 2005
Montag, 13. Juni 2005
Literatur
[1] Daniel T. Larose „Discovering Knowledge in Data, An Intoduction in Data
Mining“ Verlag Wiley 2005
[2] J. Han, M. Kamber „Data Mining: Concepts and Techniques
“ Verlag Morgan Kaufmann Publishers 2000
[3] Two Crows Cooperation „Introduction to Data Mining and Knowledge
Discovery“ Third Edition 1999
[4] K. M. Decker, S. Focardi „Technology Overview: A report on Data Mining
“ CSCS-ETH 1995
[email protected] // 2005
Montag, 13. Juni 2005
Herunterladen