Datenvorverarbeitung von nominalen Daten für Data Mining

Werbung
Datenvorverarbeitung von
nominalen Daten für Data Mining
Entstanden 2004/2005 bei der
T-Systems International GmbH
unter Betreuung von
Prof. Dr. J. Fürnkranz
Seite 1
Von Oliver Werth
Gliederung
Seite 2
ƒ
Datenvorverarbeitung
ƒ
Prepared Information Enviroment
ƒ
Vorverarbeitung von nominalen Daten
ƒ
Exponieren semantischer Information
Von Oliver Werth
Datenvorverarbeitung
Seite 3
Von Oliver Werth
Datenvorverarbeitung
Der Zyklus
Seite 4
Von Oliver Werth
Datenvorverarbeitung
Auf die Daten zugreifen
ETL
Seite 5
Von Oliver Werth
Datenvorverarbeitung
Daten betrachten
ƒ Attribute verstehen
ƒ Fehler erkennen
ƒ Erste Hypothesen
Umgesetzt mit
ƒ OLAP Tools
ƒ SQL
Seite 6
Von Oliver Werth
Datenvorverarbeitung
Datenqualität verbessern
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Seite 7
Behandlung von Ausreißern
Ungültige Werte
Falsche Formate
Dubletten
Fehlende Werte
Widersprüchliche Werte
Von Oliver Werth
Datenvorverarbeitung
Daten anreichern
Ergänzen um weitere Attribute
ƒ Aggregationen von Werten
ƒ Attribute aus externen Quellen
ƒ Einbeziehen von Expertenwissen
Domäne des
menschlichen Experten
Seite 8
Von Oliver Werth
Datenvorverarbeitung
Dimension verringern
ƒ
ƒ
ƒ
ƒ
Seite 9
Vermeiden von Overfitting
Reduzieren der Rechenzeit
Entfernen von Selbstbezügen
Entfernen von Attributen, die in der
Praxis nicht zur Verfügung stehen
Von Oliver Werth
Datenvorverarbeitung
Stichprobenverteilung prüfen
ƒ Zufällige Verteilung des Targets
?
?
ƒ Erhaltung der Verteilung des Targets
ƒ Gleichmässige Verteilung von Target
Seite 10
Von Oliver Werth
Datenvorverarbeitung
Der Zyklus
Seite 11
Von Oliver Werth
Prepared Information
Environment
Seite 12
Von Oliver Werth
Prepared Information Environment
Überblick
ƒ Ein Rahmen für die Vorverarbeitung
ƒ Vereinfacht das erneute Anstoßen des
Zyklus
ƒ Sichert die Replizierbarkeit des Modells
ƒ Routine bei periodisch zu erstellenden
Modellen
Prepared Information Environment
ƒ Spart Zeit
Seite 13
Von Oliver Werth
Prepared Information Environment
PIE mit SQL
ƒ Transformationen lassen sich mit SQL
durchführen
ƒ SQL Skripte können automatisiert
erneut aufgerufen werden
ƒ Ist bereits ein Nebenprodukt des
Datenvorverarbeitungsprozesses
Seite 14
Von Oliver Werth
Prepared Information Environment
PIE mit SAS
ƒ Prozesse in einem Flussdiagramm.
ƒ SAS 9 ist konzipiert um alle Aufgaben der
Datenvorverarbeitung durchzuführen
ƒ Bedingt transportabel
Seite 15
Von Oliver Werth
Prepared Information Environment
Hybrides PIE
ƒ Zusammenfügen von
SQL-Skripten und SAS 8.2
ƒ Output über ID anstelle eines
Output-Moduls
ƒ Flexibel
ƒ Geringer Mehraufwand
Seite 16
Von Oliver Werth
Normalisieren von Schreibweisen
Seite 17
Von Oliver Werth
Wissen in der Datenvorverarbeitung
ƒ Unstrukturierte Felder enthalten
menschenlesbare Informationen
ƒ Produktnamen, Titel, Kommentare, Namen,...
ƒ Anreichern der Daten ist eine kreative
Arbeit
ƒ Erfahrung und Fachwissen wird für viele
Entscheidungen benötigt
Seite 18
Von Oliver Werth
Wissen in der Datenvorverarbeitung
Datenbanken
ƒ Expertenwissen zum befüllen notwendig
ƒ Auflistung existenter Nachnamen
ƒ Befüllung sehr aufwändig
ƒ Datenbank wird sehr gross
ƒ Angereichert mit Metadaten
Seite 19
Von Oliver Werth
Wissen in der Datenvorverarbeitung
Heuristiken
ƒ Levenshtein Distanz
ƒ Präfix Matching
ƒ Jaro Ähnlichkeitsmaß
ƒ Jaro-Winkler Maß
ƒ Smith-Waterman Algorithmus
Seite 20
Von Oliver Werth
Wissen in der Datenvorverarbeitung
Semantische Netzwerke
ƒ
ƒ
ƒ
ƒ
Knoten beinhalten Begriffe
Kanten repräsentieren Relationen
Semantische Distanz zwischen Knoten
Geeignet um Zusammenhänge und
Assoziationen zu verarbeiten
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Seite 21
Homonyme
Synonyme
Antonyme
Hyperonyme
Hyponyme
Meronyme
Von Oliver Werth
Wissen in der Datenvorverarbeitung
Regeldatenbanken
ƒ Regeln können wiederkehrende Fehler
beheben
ƒ Regeln können Wortformen
normalisieren
ƒ Eine Regeldatenbank enthält Regeln
und Referenzen
Seite 22
T-Systems Int.
TSI GmbH
T-S-I GmbH
TSI GmbH
TS International
TSI GmbH
Von Oliver Werth
Normalisieren von Schreibweisen
Problemstellung
ƒ
ƒ
ƒ
ƒ
ƒ
Welche Zeichen sind falsch?
Welche Zeichen fehlen?
Welche Zeichen sind verdreht?
Welche Worte sind falsch?
Welche Worte sind korrekt, gehören
aber woanders hin?
ƒ Welche Worte können unterschiedlich
geschrieben werden?
Seite 23
Von Oliver Werth
Normalisieren von Schreibweisen
Lösungskonzept
ƒ Eindeutige Form notwendig
ƒ Anwendung von Regeln
ƒ In unbekannten Fällen werden mit Hilfe
des Experten weitere Regeln erstellt
ƒ Datenbank mit korrekten Formen
ƒ Vergleich von Formen über Heuristiken
Seite 24
Von Oliver Werth
Erkennen von semantischen Fehlern
Problemstellung
ƒ Sind automatisiert fast nicht zu
erkennen
ƒ Der Computer kann die menschenlesbaren Informationen nicht ohne Hilfe
verarbeiten
Seite 25
Von Oliver Werth
Erkennen von semantischen Fehlern
Lösungskonzept
ƒ Sichtung durch einen Experten
ƒ Erkennen des Fehlers am Ende eines
Datenvorverarbeitungszyklus
ƒ Zur Automatisierung ist Wissen
erforderlich
ƒ Externe Informationen müssten
automatisch herangezogen werden.
Seite 26
Von Oliver Werth
Exponieren semantischer
Information
Seite 27
Von Oliver Werth
Exponieren semantischer Information
Brainstorming
Seite 28
Von Oliver Werth
Exponieren semantischer Information
Verringern der Dimension
Seite 29
Von Oliver Werth
Exponieren semantischer Information
SCM Tool
Seite 30
Von Oliver Werth
Exponieren semantischer Information
Evaluationszenario
ƒ
ƒ
ƒ
ƒ
Verwendung der offiziellen MovieLens Datenbank
Prognose der Bewertung anhand des Kinotitels
Angereichert um manuell erstellte Genre
Angereichert um mit SCM erstellte Attribute
Up in Smoke (1978)
Two Deaths (1995)
Safe Passage (1994)
Nine Months (1995)
Money Train (1995)
...
Seite 31
Von Oliver Werth
Exponieren semantischer Information
Evaluationsresultat
Seite 32
Daten
Wahr- Gesamter Normierte
positiv Fehler
Präzision
Genre
0,0%
21,3%
-1,00
SCM 2.0
8,8%
22,3%
-0,82
SCM 2.5
14,7% 22,9%
-0,70
Genre_SCM 2.0
8,8%
23,9%
-0,82
Genre_SCM 2.5
5,8%
21,3%
-0,88
Von Oliver Werth
Vielen Dank für ihre Aufmerksamkeit
[email protected]
Seite 33
Von Oliver Werth
Herunterladen