Seminar : Data Warehouse und analytische Datenbanken DATA MINING 26.02.2012 Naim Tamtam Gliederung 1. 2. 3. 4. Einführung Einführung Aufgaben des Data Mining Anwendungen Visualisierung Data Mining 26.02.2012 2 Motivation Unmengen von Daten werden produziert bzw. gespeichert Manuelle Analyse nicht mehr möglich! Data Mining 26.02.2012 Seite 3 Einführung Data Mining Graben in Daten Wissen Gold Wissen : nützlich, verständlich, neu Data Mining 26.02.2012 Seite 4 Ausgewählte Definitionen „Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.“ Gartner Group „Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten“ U.Fayyad Data Mining 26.02.2012 Seite 5 Data Mining als… Data Mining Prozess Große Datenmengen Extraktion von Wissen Anwendung algorithmischer Methoden 26.02.2012 Seite 6 Data Mining und Knowledge Discovery in Databases Data Mining und KDD als synonym „nicht-trivialer Prozess zur Identifikation von gültigen, neuartigen , potentiell nützlichen und allgemein verständlichen Mustern in Daten“ U. Fayyad Data Mining als ein Schritt vom KDD Data Mining 26.02.2012 Seite 7 KDD-Prozess 1. Selektion : Datenauswahl und Datenintegration 2. Vorverarbeitung : Datenbereinigung (fehlender Werte, Inkonsistenz, Redundanz,Ausreißer) 3. Datentransformation : Normierung, Aggregation, Generalisierung 4. Data Mining 5. Interpretation und Evaluierung Ca. 80 % des gesamten Aufwandes Data Mining 26.02.2012 Seite 8 Data Mining und Data Warehousing Data Warehouse als Basis für Data Mining-Verfahren OLAP-Tools, Ad Hoc -Abfragen Data Mining Data Warehouse Datenbereinigung, Datenintegration… Operative Ebene Data Mining Externe Daten 26.02.2012 Seite 9 Data Mining und OLAP OLAP Data Mining Suche interaktiv automatisiert Ziel Aggregation Versteckte Muster entdecken Data Warehouse DW, transaktional , räumlich , textuell , Multimedia … Daten On-line Analytical Mining Integration des OLAP in Data Mining- Verfahren Data Mining 26.02.2012 Seite 10 1. 2. 3. 4. Einführung Aufgabendes des Data DataMining Mining Aufgaben Anwendungen Visualisierungstechniken Data Mining 26.02.2012 Seite 11 Übersicht Prädiktiv (vorhersagend) Daten analysieren Regelmäßigkeiten identifizieren Verhalten neuer Datensätze vorhersagen Beispiele: Klassifikation Abhängigkeitsanalyse Data Mining Deskriptiv (beschreibend) Daten analysieren und zusammenfassen Gefundene Strukturen präsentieren Beispiele Clusteranalyse 26.02.2012 Seite 12 Klassifikation Zuordnung eines Objektes zu einer Klasse Gegeben : Menge von Datensätze mit bestimmten Attributen Speziale Klasse Gesucht : ein Modell, die Klasse neuer Datensätze vorhersagt Data Mining 26.02.2012 Seite 13 Klassifikation Trainingsphase Validierungsphase Trainingsdaten Testdaten Lernen Modellbildung klassifizieren Genauigkeit Neue Instanz Data Mining 26.02.2012 Seite 14 Clusteranalyse Aufteilung von Objekten in möglichst homogenen Gruppen Cluster : -Objekte innerhalb einem Cluster möglichst ähnlich - Objekte verschiedener Clustern möglichst unterschiedlich Nicht überwachtes Lernen Data Mining 26.02.2012 Seite 15 Beispiel Schulden Cluster 1 Cluster 2 o oo o o o o o o oo o o o o o o oo o Cluster 3 Einkommen Data Mining 26.02.2012 Seite 16 Abhängigkeitsanalyse Strukturelle Zusammenhänge in einer Menge von Transaktionen identifizieren und beschreiben Gegeben: Menge von Transaktionen T Menge von Items I Formal : A B ; A,B I und disjunkt Data Mining 26.02.2012 Seite 17 Warenkorbanalyse Welche Produkte werden häufig gemeinsam gekauft? I ={Milch, Brot, Windel, Bier, Eier, Cola} ID Transaktion 1 Milch, Brot 2 Brot, Windel, Bier, Eier 3 Milch , Windel, Bier , Cola 4 Brot, Milch, Windel , Bier 5 Brot, Milch, Windel, Cola {Windel } {Bier }[Support 60%, Confidence 75%] Data Mining 26.02.2012 Seite 18 1. 2. 3. 4. Einführung Aufgaben des Data Mining Anwendungen Anwendungen Visualisierung Data Mining 26.02.2012 Seite 19 E-commerce Empfehlungsdienst Empfehlung von Produkten in einem Online-Shop „ Kollaboratives Filtern“ One-to-one Marketing Clusteranalyse, Assoziationsregel Data Mining 26.02.2012 Seite 20 Telekommunikation Betrugserkennung Abo-Betrug illegaler Zugriff rechtzeitig identifizieren Anhand vorgegebener Merkmale des Täters den Betrug vorhersagen Klassifikation Data Mining Gegenwärtiges und vergangenes Anrufverhalten des Täters vergleichen Abweichungsanalyse 26.02.2012 Seite 21 1. 2. 3. 4. Einführung Aufgaben des Data Mining Anwendungen Visualisierungstechniken Visualisierung Data Mining 26.02.2012 Seite 22 Visualisierung Grundidee: Graphische Darstellung Menschen in die Analyse einbeziehen leichte Erkennung von Mustern, Ausreißer, Datenverteilung... Visualisierung Datenvisualisierung Wissensvisualisierung Data Mining 26.02.2012 Seite 23 Eindimensionale Daten (ThemeRiver) Data Mining 26.02.2012 Seite 24 Streudiagramm Seminar :Data Mining 26.02.2012 Seite 25 Parallele Koordinaten Deutschland 2008 Video 7500 6000 Österreich 2007 Audio Schweiz 3000 Großbritannien Land Data Mining 2006 Jahr TV Produkt 0 Umsatz 26.02.2012 Seite 26 Fragen, Anmerkungen!!! Danke für Ihre Aufmerksamkeit