*Beinhaltet Folien aus der Vorlesung “WEML“ von Prof. Ralph Bergmann (Universität Trier) Vorlesung Wissensentdeckung und Maschinelles Lernen Dr. habil. Klaus-Dieter Althoff §7 Datenvorverarbeitung und Visualisierung Datenvorverarbeitung 7.1 Datenbereinigung (Cleaning) 7.2 Datenintegration 7.3 Datentransformation 7.4 Datenreduktion & Diskretisierung Visualisierung 7.5 Überblick über Visualisierung für Wissensentdeckung Raum A8a Spl Email: [email protected] Stand: 3.2.2005 Bereich Daten- und Wissensmanagement - XII-1 - Datenvorverarbeitung • Qualität von Data Mining-Verfahren hängt sehr stark von der Qualität der verwendeten Daten ab • Laufzeitverhalten von Data Mining -Verfahren hängt sehr stark ab von – Anzahl der Attribute – Anzahl der Beispiele • Daten sind nicht in Form von Beispielen (für DataminingVerfahren) strukturiert • Verschiedene Verfahren stellen unterschiedliche Anforderungen an die Beispielrepräsentation: – symbolische vs. numerische Daten (oder gemischt) – Skalierung numerischer Attribute – Anpassung der Repräsentationssprache Bereich Daten- und Wissensmanagement - XII-3 - 7.1 Datenbereinigung: Fehlende Werte Bereich Daten- und Wissensmanagement - XII-2 - Arten der Datenvorverarbeitung • Datenbereinigung: – Säubern der Daten von Fehlern und Ergänzung fehlender Information – Eliminierung von Rauschen • Datenintegration und -transformation: – Konstruktion von Beispielen durch Projektion und Verbinden von Tupeln mehrerer Datenbanktabellen – ggf. Repräsentationsanpassung • Datenreduktion – Reduzierung des Datensatzes mit dem Ziel, das Datamining Ergebnis nicht zu verfälschen (trotz Laufzeitverbesserung) – z.B. Entfernung von Attribute oder Beispielen, Kompressionsverfahren, a-priori-Generalisierung von Attributwerten Datenvorverarbeitung erfordert idR. umfangreiches Hintergrundwissen! Bereich Daten- und Wissensmanagement - XII-4 - Behandlung fehlender Werte • Entfernen der Tupeln bei denen Werte fehlen • Rohdaten sind oft Lückenhaft, z.B. – – – – Fehlerhaft oder wenig sorgfältig erfasste Daten Datenverlust NULL-Wert in der Datenbank mit spezieller Bedeutung Als Folge von nicht-normalisierten Relationen • Fehlende Werte müssen aus verschiedenen Gründen behandelt werden: – Data Mining Verfahren kann nicht mit fehlenden Werten umgehen – Attribute mit überwiegend fehlenden Werten sind nutzlos – Semantik der fehlender Werte muss berücksichtigt werden – insbesondere wenn die Klassifikation fehlt – nur sinnvoll, wenn dies wenige Tupel betrifft • Entfernen des Attributes – sinnvoll, wenn dies viele Tupel betrifft • Manueller Nachtrag der fehlenden Werte – sehr zeitaufwendig, nur sinnvoll bei wenigen fehlenden Werten und wenn diese nachträglich bestimmbar sind • Erweiterung des Wertebereiches um einen neuen Wert „unknown“ – „unknown“ kommt in der Klassifikation vor und erhält dadurch eine Semantik • Einfügen eines festen Wertes aus dem Wertebereich – Einsetzen eines festgelegten Defaultwertes – Berechnung des Mittelwertes aus allen Beispielen – Berechnung des Mittelwertes aus allen Beispielen derselben Klasse • Vorhersage eines wahrscheinlichen Wertes – Lernen eines Klassifikators zur Vorhersage des betroffenen Attributs Bereich Daten- und Wissensmanagement - XII-5 - Bereich Daten- und Wissensmanagement - XII-6 - •1 7.2 Datenintegration Verrauschte Daten • Verrauschte Daten häufig als Folge falscher Datenerfassung • Identifikation von Inkonsistenten und Ausreißern durch: – Überprüfung expliziter semantischer Bedingungen – Einsatz von Verfahren zur Clusteranalyse (z.B. Dichte-basiertes Clustern) • Behandlung: ähnlich wie bei fehlenden Werten – weitere Möglichkeit: Ersatz durch eine Werte aus dem am nächsten liegenden Cluster • Weitere Möglichkeiten für numerische Werte: – „Binning“: Aufteilung des Wertebereiches in Intervalle (Bins) und Ersetzen jedes Wertes durch Intervallgrenze oder Mittelwert. – Diskretisierung numerischer Wertebereiche und Überführung in symbolische Werte (z.B. Reduktion auf qualitative Angaben) -> vergl. auch Datenreduktion Bereich Daten- und Wissensmanagement - XII-7 - 7.3 Datentransformation • Überführung der Daten in eine Form die für Data Mining Verfahren geeigneter ist (Repräsentationsänderung) • Ansätze: • Datenintegration: Zusammenführen von Daten aus mehreren Tabellen zu einem Datensatz von Beispielen • Erfordert idR – Join über mehrere Tabellen – Auswahl geeigneter Attribute – Definition eines geeigneten Views auf die Datenbank • Probleme beim Zusammenführen heterogener Quellen: – „Entity Identification Problem“: • Wenn Daten aus mehreren Quellen zusammengeführt werden, werden häufig unterschiedliche Identifikatoren für dasselbe Objekte gebraucht. • Frage: welche Tupel gehören zusammen. – Redundanzen: • Wenn Daten aus mehreren Quellen zusammengeführt werden, können Attribute mit unterschiedlicher Bezeichnung dieselbe Bedeutung haben. • Systematischer Ansatz: Entwicklung eines Data Warehouses Bereich Daten- und Wissensmanagement - XII-8 - Umkodierung von Attributen Veränderung der Darstellung aber nicht des Informationsgehaltes eines Attributes • Normalisierung von numerischen Wertebereichen: – z.B. lineare Skalierung in das Intervall [0..1] – logarithmische Skalierung, d.h. Verwendung von logb(x) anstelle von x mit geeigneter Basis b. – Verfahren zur Behandlung von Rauschen können hierzu gezählt werden • Transformation von Integer-Codes in symbolische Werte – Umkodierung von Attributen (Veränderung des Typ) • Transformation von symbolischen Attributen in rein binäre Attribute • Typkonvertierung – Generalisierung – Aggregation: Zusammenfassen mehrer Tupel zu einem Beispiel – Attributkonstruktion: Bestimmung aussagekräftiger abgeleiteter Attribute Bereich Daten- und Wissensmanagement - XII-9 - – z.B. 1 -> weiblich, 2->männlich – von Datumstypen in Integerwerte – von Städtenamen in Postleitzahlen – von String-Typen in symbolische Werte (ggf. mit Korrekturverfahren für Tippfehler) Bereich Daten- und Wissensmanagement Aggregation Generalisierung • Reduktion des Informationsgehaltes eines Attributes (vgl. auch Datenreduktion) • Ersetzung eines numerischen Attributes durch ein symbolisches Attribute mit quantitativer Aussage – z.B. niedrig, mittel, hoch • Zusammenfassung mehrere Ausprägungen eines symbolischen Attributes zu einer einzigen – z.B. Reduktion einer differenzierten Farbskala auf die Grundtöne • Clusterverfahren können auf ein einzelnes Attribute angewendet um geeignete Gruppen zu finden Bereich Daten- und Wissensmanagement - XII-11 - - XII-10 - • Zusammenfassen mehrerer Tupel unter einer gemeinsamen Bedingung • Aggregation bestimmter Attributewerte aus den unterschiedlichen Tupeln zu einem neuen Wert – Summenbildung, Durchschnittsbildung, Zählen von Einträgen, etc. • Beispiel: – Bestimmung eines Tagesumsatzes für einen Tag und ein Filiale aus einer Tabelle mit Einzelpositionen Vergl. Datenreduktion Bereich Daten- und Wissensmanagement - XII-12 - •2 Attributkonstruktion • Ableitung eines neuen Attributes aus den Werten der bekannten Attribute • Gegensatz zur Aggregation: bezieht sich hier nur auf ein einzelnes Tupel, kann aber der Aggregation nachgeschaltet werden. • Sinnvoll, wenn vermutet wird, dass das Klassifikationsergebnis von diesem Attribut abhängt (Hintergrundwissen) • Beispiel: – Berechnung des Gewinns aus Einnahmen und Ausgaben Bereich Daten- und Wissensmanagement - XII-13 - 7.4 Datenreduktion • Ziel: Reduktion der Datenmenge für Data Mining Verfahren, – ohne signifikante Änderung des Ergebnisses – mit Beschleunigung der Analyseverfahren • Verfahren aus der Datentransformation einsetzbar: – Generalisierung – Aggregation Hier aber unterschiedliche Zielsetzung, nämlich keine signifikante Änderung des Ergebnisses; bei Transformation: Vorwegnahme bekannter Zusammenhänge und dadurch Verbesserung des Ergebnisses Weitere Techniken: • Dimensionsreduktion • Daten Sampling Bereich Daten- und Wissensmanagement Dimensionsreduktion • Reduktion der Datenmenge durch Entfernen von irrelevanten oder redundanten Attributen • Irrelevante Attribute für das Entdeckungsziel, erkennbar durch – geringe Varianz – geringe Korrelation mit Klassifikationsattribut (anhängige Variable) – kommt nicht in Klassifikatorbeschreibung, z.B.: • Lernen eines Entscheidungsbaumes (mit einer Teilmenge der Daten) und entfernen der Attribute, die darin nicht vorkommen • Lernen von Attributgewichten (fallbasiertes Lernen) und entfernen der Attribute mit geringen Gewicht • Redundante Attribute, erkennbar durch: – Semantische Analyse der Attribute (z.B. Alter und Geburtsjahr) – hohe Korrelation mit anderen Variablen Aber: Redundante Attribute können aber durchaus relevant sein, z.B. wenn durch Attributkonstruktion hinzugefügt. Vorsicht beim Entfernen! Bereich Daten- und Wissensmanagement - XII-15 - 7.5 Visualisierung Visualisierung kann dazu dienen: • sich einen Überblick über die Daten zu verschaffen, als ersten Anhaltspunkt für die Bestimmung des Wissensentdeckungsprozesses. -> Datenvisualisierung – Geometrie-basiert – Icon-basiert Daten Sampling • Reduktion der Beispielmenge, d.h. Entfernen von Tupeln Verschiedene Samplingverfahren: • Random Sampling: – Zufallsstichprobe aus den Ausgangsbeispielen • Cluster Sampling: – zufällige Einteilung der Beispiele in Cluster (z.B. aufgrund ihrer physikalischen Speicheradresse in der DB) und Zufallsauswahl der Cluster, deren Beispiele betrachtet werden. • Stratified Sampling: – Bildung von einfachen inhaltlichen Clustern (z.B. bzgl. eines Attributwertes) und Zufallsauswahl von Beispielen aus jedem Cluster. Bereich Daten- und Wissensmanagement - XII-16 - Geometrie-basiert: Scatter Plot Matrix A1 A2 A3 A4 A1 A2 und viele weitere • das Ergebnis des Data Mining darzustellen -> Visualisierung der Konzepte oder Cluster Nachfolgende Beispiele sind Tutorials von Prof. Keim entnommen: http://www.afia.polytechnique.fr/CAFE/ECML01/visual_dm.html http://www.inf.uni-konstanz.de/~keim/tutorials.html Bereich Daten- und Wissensmanagement - XII-14 - - XII-17 - A3 A4 • Plot der Projektion der Daten je zwei Attribute Bereich Daten- und Wissensmanagement - XII-18 - •3 Geometrie-basiert: Landschaftsdarstellung • Projektion auf drei Attribute • Darstellung der Abhängigkeit eines Attributes (Höhe) von zwei unabhängigen Attributen (X/Y Koordinate) Bereich Daten- und Wissensmanagement - XII-19 - Visualisierung von Data Mining Ergebnissen Icon-basiert: Chernoff-Faces • Auswahl von 2 Attributen • Darstellung der anderen Attribute durch Formeigenschaften der Gesichter (Nase, Augen, Mund, ...) Bereich Daten- und Wissensmanagement - XII-20 - Geometrische Visualisierung von Clustern • Entscheidungsbäume und Clusterbäume sind gut in Form von Baumdarstellungen zu visualisieren (z.B. Tree View, Hyperbolic Tree) • Anzeigen von Clusterrändern durch Kombination von Ellipsen Bereich Daten- und Wissensmanagement - XII-21 - Bereich Daten- und Wissensmanagement - XII-22 - Zusammenfassung KDD Prozess Bereich Daten- und Wissensmanagement - XII-23 - •4