Vorlesung Wissensentdeckung und Maschinelles Lernen

Werbung
*Beinhaltet Folien aus der Vorlesung “WEML“ von Prof. Ralph Bergmann (Universität Trier)
Vorlesung
Wissensentdeckung und
Maschinelles Lernen
Dr. habil. Klaus-Dieter Althoff
§7 Datenvorverarbeitung und
Visualisierung
Datenvorverarbeitung
7.1
Datenbereinigung (Cleaning)
7.2
Datenintegration
7.3
Datentransformation
7.4
Datenreduktion & Diskretisierung
Visualisierung
7.5
Überblick über Visualisierung für Wissensentdeckung
Raum A8a Spl
Email: [email protected]
Stand: 3.2.2005
Bereich Daten- und
Wissensmanagement
- XII-1 -
Datenvorverarbeitung
• Qualität von Data Mining-Verfahren hängt sehr stark von
der Qualität der verwendeten Daten ab
• Laufzeitverhalten von Data Mining -Verfahren hängt sehr
stark ab von
– Anzahl der Attribute
– Anzahl der Beispiele
• Daten sind nicht in Form von Beispielen (für DataminingVerfahren) strukturiert
• Verschiedene Verfahren stellen unterschiedliche
Anforderungen an die Beispielrepräsentation:
– symbolische vs. numerische Daten (oder gemischt)
– Skalierung numerischer Attribute
– Anpassung der Repräsentationssprache
Bereich Daten- und
Wissensmanagement
- XII-3 -
7.1 Datenbereinigung: Fehlende Werte
Bereich Daten- und
Wissensmanagement
- XII-2 -
Arten der Datenvorverarbeitung
• Datenbereinigung:
– Säubern der Daten von Fehlern und Ergänzung fehlender
Information
– Eliminierung von Rauschen
• Datenintegration und -transformation:
– Konstruktion von Beispielen durch Projektion und Verbinden von
Tupeln mehrerer Datenbanktabellen
– ggf. Repräsentationsanpassung
• Datenreduktion
– Reduzierung des Datensatzes mit dem Ziel, das Datamining
Ergebnis nicht zu verfälschen (trotz Laufzeitverbesserung)
– z.B. Entfernung von Attribute oder Beispielen,
Kompressionsverfahren, a-priori-Generalisierung von Attributwerten
Datenvorverarbeitung erfordert idR. umfangreiches
Hintergrundwissen!
Bereich Daten- und
Wissensmanagement
- XII-4 -
Behandlung fehlender Werte
• Entfernen der Tupeln bei denen Werte fehlen
• Rohdaten sind oft Lückenhaft, z.B.
–
–
–
–
Fehlerhaft oder wenig sorgfältig erfasste Daten
Datenverlust
NULL-Wert in der Datenbank mit spezieller Bedeutung
Als Folge von nicht-normalisierten Relationen
• Fehlende Werte müssen aus verschiedenen Gründen
behandelt werden:
– Data Mining Verfahren kann nicht mit fehlenden Werten umgehen
– Attribute mit überwiegend fehlenden Werten sind nutzlos
– Semantik der fehlender Werte muss berücksichtigt werden
– insbesondere wenn die Klassifikation fehlt
– nur sinnvoll, wenn dies wenige Tupel betrifft
• Entfernen des Attributes
– sinnvoll, wenn dies viele Tupel betrifft
• Manueller Nachtrag der fehlenden Werte
– sehr zeitaufwendig, nur sinnvoll bei wenigen fehlenden Werten und wenn
diese nachträglich bestimmbar sind
• Erweiterung des Wertebereiches um einen neuen Wert „unknown“
– „unknown“ kommt in der Klassifikation vor und erhält dadurch eine
Semantik
• Einfügen eines festen Wertes aus dem Wertebereich
– Einsetzen eines festgelegten Defaultwertes
– Berechnung des Mittelwertes aus allen Beispielen
– Berechnung des Mittelwertes aus allen Beispielen derselben Klasse
• Vorhersage eines wahrscheinlichen Wertes
– Lernen eines Klassifikators zur Vorhersage des betroffenen Attributs
Bereich Daten- und
Wissensmanagement
- XII-5 -
Bereich Daten- und
Wissensmanagement
- XII-6 -
•1
7.2 Datenintegration
Verrauschte Daten
• Verrauschte Daten häufig als Folge falscher
Datenerfassung
• Identifikation von Inkonsistenten und Ausreißern durch:
– Überprüfung expliziter semantischer Bedingungen
– Einsatz von Verfahren zur Clusteranalyse (z.B. Dichte-basiertes
Clustern)
• Behandlung: ähnlich wie bei fehlenden Werten
– weitere Möglichkeit: Ersatz durch eine Werte aus dem am
nächsten liegenden Cluster
• Weitere Möglichkeiten für numerische Werte:
– „Binning“: Aufteilung des Wertebereiches in Intervalle (Bins) und
Ersetzen jedes Wertes durch Intervallgrenze oder Mittelwert.
– Diskretisierung numerischer Wertebereiche und Überführung in
symbolische Werte (z.B. Reduktion auf qualitative Angaben)
-> vergl. auch Datenreduktion
Bereich Daten- und
Wissensmanagement
- XII-7 -
7.3 Datentransformation
• Überführung der Daten in eine Form die für Data Mining
Verfahren geeigneter ist (Repräsentationsänderung)
• Ansätze:
• Datenintegration: Zusammenführen von Daten aus
mehreren Tabellen zu einem Datensatz von Beispielen
• Erfordert idR
– Join über mehrere Tabellen
– Auswahl geeigneter Attribute
– Definition eines geeigneten Views auf die Datenbank
• Probleme beim Zusammenführen heterogener Quellen:
– „Entity Identification Problem“:
• Wenn Daten aus mehreren Quellen zusammengeführt werden, werden
häufig unterschiedliche Identifikatoren für dasselbe Objekte gebraucht.
• Frage: welche Tupel gehören zusammen.
– Redundanzen:
• Wenn Daten aus mehreren Quellen zusammengeführt werden, können
Attribute mit unterschiedlicher Bezeichnung dieselbe Bedeutung haben.
• Systematischer Ansatz: Entwicklung eines
Data Warehouses
Bereich Daten- und
Wissensmanagement
- XII-8 -
Umkodierung von Attributen
Veränderung der Darstellung aber nicht des
Informationsgehaltes eines Attributes
• Normalisierung von numerischen Wertebereichen:
– z.B. lineare Skalierung in das Intervall [0..1]
– logarithmische Skalierung, d.h. Verwendung von logb(x) anstelle
von x mit geeigneter Basis b.
– Verfahren zur Behandlung von Rauschen können hierzu gezählt
werden
• Transformation von Integer-Codes in symbolische Werte
– Umkodierung von Attributen (Veränderung des Typ)
• Transformation von symbolischen Attributen in rein binäre
Attribute
• Typkonvertierung
– Generalisierung
– Aggregation: Zusammenfassen mehrer Tupel zu einem Beispiel
– Attributkonstruktion: Bestimmung aussagekräftiger abgeleiteter
Attribute
Bereich Daten- und
Wissensmanagement
- XII-9 -
– z.B. 1 -> weiblich, 2->männlich
– von Datumstypen in Integerwerte
– von Städtenamen in Postleitzahlen
– von String-Typen in symbolische Werte (ggf. mit
Korrekturverfahren für Tippfehler)
Bereich Daten- und
Wissensmanagement
Aggregation
Generalisierung
• Reduktion des Informationsgehaltes eines Attributes
(vgl. auch Datenreduktion)
• Ersetzung eines numerischen Attributes durch ein
symbolisches Attribute mit quantitativer Aussage
– z.B. niedrig, mittel, hoch
• Zusammenfassung mehrere Ausprägungen eines
symbolischen Attributes zu einer einzigen
– z.B. Reduktion einer differenzierten Farbskala auf die Grundtöne
• Clusterverfahren können auf ein einzelnes Attribute
angewendet um geeignete Gruppen zu finden
Bereich Daten- und
Wissensmanagement
- XII-11 -
- XII-10 -
• Zusammenfassen mehrerer Tupel unter einer
gemeinsamen Bedingung
• Aggregation bestimmter Attributewerte aus den
unterschiedlichen Tupeln zu einem neuen Wert
– Summenbildung, Durchschnittsbildung, Zählen von Einträgen,
etc.
• Beispiel:
– Bestimmung eines Tagesumsatzes für einen Tag und ein Filiale
aus einer Tabelle mit Einzelpositionen
Vergl. Datenreduktion
Bereich Daten- und
Wissensmanagement
- XII-12 -
•2
Attributkonstruktion
• Ableitung eines neuen Attributes aus den Werten der
bekannten Attribute
• Gegensatz zur Aggregation: bezieht sich hier nur auf ein
einzelnes Tupel, kann aber der Aggregation
nachgeschaltet werden.
• Sinnvoll, wenn vermutet wird, dass das
Klassifikationsergebnis von diesem Attribut abhängt
(Hintergrundwissen)
• Beispiel:
– Berechnung des Gewinns aus Einnahmen und Ausgaben
Bereich Daten- und
Wissensmanagement
- XII-13 -
7.4 Datenreduktion
• Ziel: Reduktion der Datenmenge für Data Mining
Verfahren,
– ohne signifikante Änderung des Ergebnisses
– mit Beschleunigung der Analyseverfahren
• Verfahren aus der Datentransformation einsetzbar:
– Generalisierung
– Aggregation
Hier aber unterschiedliche Zielsetzung, nämlich keine signifikante
Änderung des Ergebnisses;
bei Transformation: Vorwegnahme bekannter Zusammenhänge
und dadurch Verbesserung des Ergebnisses
Weitere Techniken:
• Dimensionsreduktion
• Daten Sampling
Bereich Daten- und
Wissensmanagement
Dimensionsreduktion
• Reduktion der Datenmenge durch Entfernen von irrelevanten
oder redundanten Attributen
• Irrelevante Attribute für das Entdeckungsziel, erkennbar durch
– geringe Varianz
– geringe Korrelation mit Klassifikationsattribut (anhängige Variable)
– kommt nicht in Klassifikatorbeschreibung, z.B.:
• Lernen eines Entscheidungsbaumes (mit einer Teilmenge der Daten) und
entfernen der Attribute, die darin nicht vorkommen
• Lernen von Attributgewichten (fallbasiertes Lernen) und entfernen der
Attribute mit geringen Gewicht
• Redundante Attribute, erkennbar durch:
– Semantische Analyse der Attribute (z.B. Alter und Geburtsjahr)
– hohe Korrelation mit anderen Variablen
Aber: Redundante Attribute können aber durchaus relevant sein, z.B. wenn
durch Attributkonstruktion hinzugefügt. Vorsicht beim Entfernen!
Bereich Daten- und
Wissensmanagement
- XII-15 -
7.5 Visualisierung
Visualisierung kann dazu dienen:
• sich einen Überblick über die Daten zu verschaffen, als
ersten Anhaltspunkt für die Bestimmung des
Wissensentdeckungsprozesses.
-> Datenvisualisierung
– Geometrie-basiert
– Icon-basiert
Daten Sampling
• Reduktion der Beispielmenge, d.h. Entfernen von Tupeln
Verschiedene Samplingverfahren:
• Random Sampling:
– Zufallsstichprobe aus den Ausgangsbeispielen
• Cluster Sampling:
– zufällige Einteilung der Beispiele in Cluster (z.B. aufgrund ihrer
physikalischen Speicheradresse in der DB) und Zufallsauswahl
der Cluster, deren Beispiele betrachtet werden.
• Stratified Sampling:
– Bildung von einfachen inhaltlichen Clustern (z.B. bzgl. eines
Attributwertes) und Zufallsauswahl von Beispielen aus jedem
Cluster.
Bereich Daten- und
Wissensmanagement
- XII-16 -
Geometrie-basiert: Scatter Plot Matrix
A1
A2
A3
A4
A1
A2
und viele weitere
• das Ergebnis des Data Mining darzustellen
-> Visualisierung der Konzepte oder Cluster
Nachfolgende Beispiele sind Tutorials von Prof. Keim entnommen:
http://www.afia.polytechnique.fr/CAFE/ECML01/visual_dm.html
http://www.inf.uni-konstanz.de/~keim/tutorials.html
Bereich Daten- und
Wissensmanagement
- XII-14 -
- XII-17 -
A3
A4
• Plot der Projektion der Daten je zwei Attribute
Bereich Daten- und
Wissensmanagement
- XII-18 -
•3
Geometrie-basiert: Landschaftsdarstellung
• Projektion auf drei Attribute
• Darstellung der Abhängigkeit eines Attributes (Höhe) von zwei
unabhängigen Attributen (X/Y Koordinate)
Bereich Daten- und
Wissensmanagement
- XII-19 -
Visualisierung von Data Mining
Ergebnissen
Icon-basiert: Chernoff-Faces
• Auswahl von 2 Attributen
• Darstellung der anderen Attribute durch Formeigenschaften der
Gesichter (Nase, Augen, Mund, ...)
Bereich Daten- und
Wissensmanagement
- XII-20 -
Geometrische Visualisierung von Clustern
• Entscheidungsbäume und Clusterbäume sind gut in Form
von Baumdarstellungen zu visualisieren (z.B. Tree View,
Hyperbolic Tree)
• Anzeigen von Clusterrändern durch Kombination von Ellipsen
Bereich Daten- und
Wissensmanagement
- XII-21 -
Bereich Daten- und
Wissensmanagement
- XII-22 -
Zusammenfassung KDD Prozess
Bereich Daten- und
Wissensmanagement
- XII-23 -
•4
Herunterladen