4. Visualisierungstechniken im Data Mining - Friedrich

Werbung
Seminar im Sommersemester 2005
„DATA WAREHOUSING“
Thema: Data Mining
Christian Knappe
Fachrichtung Wirtschaftsinformatik
Friedrich-Schiller-Universität Jena
Fakultät für Mathematik und Informatik
Lehrstuhl für Datenbanken und
Informationssysteme
Lehrstuhlinhaber Prof. Dr. Klaus Küspert
Betreuung Dipl. –Inf. Thomas Müller
Inhalt
1. Einleitung ............................................................................................................................... 2
2. Einführung und Überblick ...................................................................................................... 2
2.1 Die Begrifflichkeit „Data Mining“ ................................................................................... 2
2.2 Rund um Data Mining ...................................................................................................... 4
3. Verfahren des Data Mining .................................................................................................... 4
3.1 Klassifizierungsmöglichkeiten ......................................................................................... 4
3.2 Was Data Mining leistet ................................................................................................... 5
3.2.1 Beschreibung (Description)....................................................................................... 5
3.2.2 Klassifikation (Classification) ................................................................................... 5
3.2.3 Schätzung (Estimation) ............................................................................................. 6
3.2.4 Prognosen (Prediction, Forecasting) ......................................................................... 7
3.2.5 Segmentierung und Gruppenbildung (Clustering) .................................................... 8
3.2.6 Assoziation (Association) ......................................................................................... 8
4. Visualisierungstechniken im Data Mining ............................................................................. 9
4.1 Motivation ........................................................................................................................ 9
4.2 Klassifikation Visueller Data Mining Techniken............................................................. 9
4.3 Betrachtung nach der verwendeten Visualisierungstechnik ........................................... 10
5. Anwendungsumgebungen .................................................................................................... 14
6. Ausblick ............................................................................................................................... 16
7. Literaturverzeichnis .............................................................................................................. 17
1. Einleitung
Unsere Gesellschaft ist in aller Munde als „Informations- und Mediengesellschaft“. In der Tat
stellt technischer Fortschritt und dessen Anwendung einen umfassenden Bereich unseres
täglichen
Lebens
Zahlungsvorgänge
dar.
oder
Ob
Telefonverbindungen,
biometrische
Informationen
Mailverkehr,
-
Flugbuchungen,
unweigerlich
mit
allen
Gesellschaftssystemen verbunden sind Daten. Überall werden sie generiert, gesammelt und
gespeichert; Datenvorkommen im Petabytebereich stellen keine Seltenheit mehr dar.
Dieses Dokument soll dem Leser einen Einblick in die Materie des Data Mining vermitteln.
Nachdem auf einige Begriffe der Umgebung eingegangen wird sollen in den nächsten
Abschnitten die Leistungen des Data Mining und dessen Anwendung in ausgesuchten
Gebieten vorgestellt werden. Diese Arbeit ist eine individuelle Sicht auf das Themengebiet
und in ihrem Umfang beschränkt. Dem interessierten Rezipienten sei darüber hinaus in den
einzelnen Kapiteln die zu Grunde liegende Literatur empfohlen.
2. Einführung und Überblick
2.1 Die Begrifflichkeit „Data Mining“
Ein intuitiver Erklärungsansatz erschließt sich bereits durch eine einfache Betrachtung.
Wörtlich geht es um den „Daten-Bergbau“. Es lässt sich etwa leicht mit den Sieben Zwergen
vergleichen. Die laufen jeden Tag in ihre Stollen im Berg und suchen nach Kostbarkeiten.
Was für die Sieben Zwerge Diamanten, Edelsteine und Gold, ist für uns der Faktor Wissen.
Und ähnlich den Zwergen schürfen wir durch Attributwerte und Relationen um verborgene
Zusammenhänge aufzudecken. Dem Schürfer erschließen sich abstrakte Erkenntnisse über
das Datenmaterial welche er als Folge zweckmäßig zu seinem Nutzen einsetzen kann. Da die
Vielzahl des Datenaufkommens menschliche Handlungen wiederspiegeln erschließt sich eine
einfache ökonomische Motivation. Wissen über komplexe Zusammenhänge in menschlicher
Aktion stellt eine große ökonomische Macht dar. Wissen bzw. asymmetrisch verteilte
Informationen sind ein Vorteil auf umstrittenen Märkten. Oder frei nach Francis Bacon:
„Wissen ist Macht“.
Der Begriff des „Data Mining“ (DM) wird in der Literatur unterschiedlich hinterlegt. Dem
entsprechend zeigen die einzelnen Ausführungen der Autoren unterschiedliche Blickwinkel
auf die verschiedenen Themengebiete. Zum einen existiert Data Mining im Zusammenhang
2
mit dem Begriff des „Knowledge Discovery in Large Databases“ (KDD) wobei Data Mining
selbst als eine Funktion in einem Prozessmodell in Erscheinung tritt. Ein weiter gefasstes
Begriffsverständnis verwendet den Begriff des Data Mining als Synonym für den Prozess des
Wissenserwerbs, also gleichgesetzt zu KDD. Als der wohl bekanntester Vertreter dieser
Sichtweise hat sich z.B. der „Cross Industrie Standart Process for Data Mining“ (CRISP-DM)
etabliert. Das Prozessmodell beschreibt den Miningprozess als Gesamtheit einer
zielgerichteten, iterativen Phasenabfolge und bietet, ähnlich dem KDD-Prozessmodell, eine
Vorgehensreferenz. Han und Kamber bestätigen diese Sichtweisen und formulieren sie
explizit.
„Many people treat data mining as a synonym for another popularly used term, ‘Knowledge
Discovery in Databases’, or KDD. Alternatively, others view data mining as simply an
essential step in the process of knowledge discovery in databases. (…)We adopt a broad view
of data mining functionality: data mining is the process of discovering interesting knowledge
from large amounts of data stored either in databases, data warehouses, or other information
repositories.” 1
Sie sehen Data Mining als ein komplexes Gebilde aus vielen unterschiedlichen
Teildisziplinen.
„Data mining is a multidisciplinary field, drawing work from areas including database
technology, articial intelligence, machine learning,
neural networks, statistics, pattern
recognition, knowledge based systems, knowledge acquisition, information retrieval, high
performance computing, and data visualization.“
Decker und Focardi betrachten in ihren Ausführungen hingegen eher ein spezifisches,
technisches Bild von Data Minng.
„Data mining is a problemsolving methodology that finds a logical or
description, eventually of a complex nature, of patterns
1
2
mathematical
and regularities in a set of data.“2
Vgl. Han, Kamber 2000 Kap. 1.2
Vgl. Decker, Focardi 1995
3
2.2 Rund um Data Mining3
Im Zusammenhang mit Data Mining fallen häufig weitere Schlagworte wie „Data
Warehousing“ (DW) oder „Online Analytical Processing“ (OLAP). Data Warehouses
übernehmen in vielen Fällen Datenhaltungs- und Aufbereitungsaufgaben für das Data Mining.
Ein Data Warehouse übernimmt komplexe Aufgaben bei der Integration, Transformation und
Agregation großer Datenvolumen. Teile des Warehouse können als so genannter „Data Mart“
für das Mining zugänglich gemacht werden. Data Mining ist grundsätzlich auch ohne ein Data
Warehouse möglich. Die Verfahren des Data Mining arbeiten prinzipiell auch auf kleinen
Datenmengen. Kleine Datenaufkommen lassen sich noch relativ kostengünstig per Hand
aufbereiten. Die Entscheidung für oder gegen ein Warehouse fällt über ein Abwägen von Vorund Nachteilen eines DW in der vorliegenden Problemumgebung. Online Analytical
Processing ist ein weiterer Analyseansatz der jedoch eine Methodik aufweist die sich von der
des Data Mining unterscheidet. OLAP dient der Verifizierung von Hypothesen. Es bietet
unterschiedlich abstrahierte Sichten auf die Daten und ermöglicht eine navigierende
Fundierung einer bereits vorhandenen Behauptung. OLAP ist im Gegensatz zu DM ein
deduktives Verfahren. DM ist konzipiert semiautomatisch Muster, Zusammenhänge und
Regeln innerhalb eines Datenbestandes zu entdecken. OLAP ist im Gegensatz zu DM
beschränkter was die Komplexität des erfassbaren Datenmaterials angeht. DM arbeitet auf
großen Datenmengen und versteht sich im Umgang mit umfangreichen Dimensionszahlen.
3. Verfahren des Data Mining
3.1 Klassifizierungsmöglichkeiten4
Das nachstehende Kapitel soll eine Einsicht in die Techniken und Leistungen des Data
Mining vermitteln. Um eine Klassifikation der unterschiedlichen Techniken vornehmen zu
können betrachten wir zunächst drei verschiedene Möglichkeiten.

Nach Art der Datenbank
Hier erfolgt eine Einteilung der Techniken anhand des Datenbanktyps. Zu nennen wären
unter anderen: relationale, objektorientierte oder transaktionale Datenbanken.

3
4
Nach der grundlegend verwendeten Technik
Vgl. Two Crows Cooperation 1999
Vgl. Chen, Han, Yu 1996
4
Über dieses Schema lassen sich DM-Techniken in grundlegende Felder wie
Anfragegestütztes DM, Muster basiertes DM oder interaktives DM finden. Es besteht
auch die Möglichkeit die verschiedenen Techniken entsprechend ihrer statistischen oder
mathematischen Herangehensweise einzuteilen.

Nach Art des erlangten Wissens
Es
lassen
sich
einige
typische
Wissensarten
unterscheiden.
Dazu
zählen
Datenbeschreibung, Assoziationsregeln, Segmentebildung, Schätzungen, Voraussage und
Klassifikation. Die verschiedenen Techniken lassen sich weiterhin nach dem
Abstraktionsniveau des Wissens einordnen. So unterscheidet man zwischen einfachen
Fakten, Verallgemeinerungen und Abstraktem Wissen.
Der nachfolgende Abschnitt orientiert sich an der Einteilung der Techniken nach der Art des
Wissens und erhebt selbstverständlich keinen Anspruch auf Vollständigkeit. Auch die
einzelnen technischen Hintergründe werden an dieser Stelle nicht näher erläutert.
3.2 Was Data Mining leistet5
3.2.1 Beschreibung (Description)
In manchen Fällen geht es den Forschern und Analysten schlicht darum Muster oder Trends
innerhalb des Datenmaterials zu beschreiben. Dabei kommt es im Wesentlichen auf
Verständlichkeit und Einfachheit der Darstellungen an. Betrachtet man beispielsweise einen
Entscheidungsbaum, so kann man an diesem leicht intuitiv ein Regelwerk veranschaulichen.
Ein neurales Netz hingegen ist in dieser Hinsicht wesentlich schwerer verständlich. Der
Betrachter soll einen Überblick in die Daten erhalten und gegebenenfalls die Möglichkeit
haben
auf
Auffälligkeiten
reagieren
zu
können.
In
diesem
Bereich
spielen
Visualisierungstechniken wie sie in Kapitel 4 betrachtet werden eine wesentliche Rolle.
3.2.2 Klassifikation (Classification)
Bei der Klassifikation wird einem neuen Datensatz automatisch ein Wert in einer
Zielvariablen zugewiesen. Es handelt sich um eine Art Aggregation, da dem neuen Satz auf
Grund seiner Konfiguration eine abstrakte, nominale Eigenschaft zugewiesen wird.
Abbildung 1 zeigt den schematischen Ablauf einer Klassifikation im Überblick.
5
Vgl. Daniel. T. Larose 2005
5
Abb. 1
Eine Klassifikation kann erst ablaufen wenn entsprechende Klassifikationsregeln existieren.
Diese Regeln werden im Allgemeinen durch Methoden des „supervised learning“ generiert
bzw. erlernt. Supervised deshalb, weil das Regelwerk anhand bereits klassifizierter
Datentupel (Training Set Data) erstellt wird. Besteht erst einmal ein derartiges Schema, so
können neue, nicht klassifizierte Datensätze (Test Set Data) automatisch kategorisiert werden.
Versicherungsnehmer werden in Gefahrenstufen eingeordnet. Gesichtsmerkmale werden als
verdächtig betrachtet. Klassifikation lässt sich leicht an menschlichem Verhalten
veranschaulichen. Wir betrachten Individuen unter verschiedenen Gesichtspunkten. Wir
verarbeiten wahrgenommene Reize durch eine Zuordnung zu bereits bekanntem. Treten uns
Personen gegenüber, so klassifizieren wir diese nach einem individuell erlernten Schema.
3.2.3 Schätzung (Estimation)
Schätzungen unterscheiden sich von der Klassifikation darin, dass die zu bestimmende
Wertausprägung in der Zielvariablen numerisch ist. Es gibt verschiedenste Ausprägungen:
Regressionen, Punkt- oder Intervallschätzungen. Das wohl bekannteste und einfachste
Beispiel ergibt sich beim Einsatz von Regressionsgleichungen. Regressionsverfahren
approximieren Schätzfunktionen mit deren Hilfe später neue Wertepaare bestimmt werden
können. Betrachten wir den Zusammenhang wie ihn Abbildung 2 zeigt.
6
Abb. 2
Dass es
sich
um eine relativ schlechte Regression handelt sei nur am Rande erwähnt. Für die prinzipielle
Betrachtung gehen wir davon aus ein entsprechendes Verfahren liefert uns eine
Regressionsgleichung der Art: max Speed (knots) = 40,795+0,426*Horsepower. Die
Parameter der Gleichung werden auf Grund des Datenmaterials geschätzt. Somit sind auch
alle über die Regressionsgleichung berechneten Wertekombinationen Schätzungen. Sie ist
eine geschätzte Funktion mit deren Hilfe man schätzen kann. Eine weitere Anwendung von
Schätzungen ergibt sich im Bereich von Verteilungen. Kann man von der Normalverteilung
einer Variablen ausgehen, kennt jedoch weder Mittelwert noch Standartabweichung, so kann
man diese Parameter auf Grund der Stichprobe Mittels spezieller Funktionen schätzen.
3.2.4 Prognosen (Prediction, Forecasting)
Voraussagen sind eine besondere Ausprägung von Klassifikation und Schätzung. Der
wesentliche Unterschied liegt darin, dass die zu errechnenden Ergebnisse in der Zukunft
liegen. Zeitreihenfortschreibungen stellen den wohl bekanntesten Vertreter dieser Klasse. Die
Voraussage von Absatz- oder Kursentwicklungen lassen die Anwendung klar werden.
7
3.2.5 Segmentierung und Gruppenbildung (Clustering)
Bei der Segmentierung geht es um eine Zuordnung möglichst gleichartiger Objekte in
verschiedene homogene Gruppen. Innerhalb der Gruppen soll eine möglichst maximale
Ähnlichkeit erreicht werden. Zwischen den Gruppen wiederum soll die Distanz maximal
werden. Marktsegmentierungen oder Kundenbetrachtungen sind populäre Vertreter dieser
Gattung. Es erfolgt eine Gruppenzuordnung jedoch im Vergleich zur Klassifizierung besteht
keine explizite Zielvariable. Clustering ist vielmehr in der Lage Variablen zu entdecken. Habe
ich beispielsweise meine Kunden gruppiert, so kann ich anhand dieser Klassifikationsregeln
erlernen und neue Kunden direkt einer Gruppe zuordnen.
3.2.6 Assoziation (Association)
Über Assoziationen lassen sich Zusammenhänge in Datenbeständen entdecken. Eingesetz
wird diese Technik häufig bei Warenkorbanalysen. Sie ermöglicht es quantitative Aussagen
über den Zusammenhang von Waren untereinander. So könnte man in einem Supermarkt evtl.
herausfinden, dass beim Kauf von Bier mit einer bestimmten Sicherheit auch Wein gekauft
wird. Diese Sicherheit findet sich in definierten Kennzahlen, wie dem so genannten „Support“
und „Confidence“. Betrachten wir ein einfaches Beispiel:
Gehen wir davon aus wir haben 400 registrierte Warenkörbe und haben festgestellt, dass in
200 von 400 Kekse gekauft wurden. Weiterhin konnte man herausfiltern, dass 100 von den
200 Kekskäufern weiterhin Schokoaufstrich gekauft haben. Wir können als folgende Regel
ableiten. Wenn Kekse, dann Schokoaufstrich. Natürlich könnte man viele derartige
Zuordnungen finden. Betrachten wir uns zunächst die bereits erwähnten Kennzahlen. Der
Support für diese Behauptung beträgt 200/400 also 50%. Die Confidence beträgt 100/200 also
ebenfalls 50%. Es liegt im Grunde bei jedem Analysten ab welchen Werten für die beiden
Kennzahlen eine Behauptung auch angenommen wird. Das derartige Analysen Sinn machen
zeigt die folgende Überlegung. Gehen wir einmal davon aus, wir haben ein Produkt welches
aus dem Sortiment entfernt werden soll. Werden jedoch in Verbindung mit dem
entsprechenden Produkt noch weitere Waren gekauft, so könnte sich eine Produktelimination
negativ auf die anderen Verkaufszahlen auswirken.
8
4. Visualisierungstechniken im Data Mining
4.1 Motivation
Prinzipiell ist es notwendig den Mensch, sein Wissen und kreative Fähigkeiten in den Data
Mining Prozess zu integrieren. Da ohne ein Verständnis der Daten ist eine zielgerichtete
Analyse kaum möglich ist müssen hier menschliche Fähigkeiten und technische
Möglichkeiten
optimal
miteinander
kombiniert
werden.
Die
Visualisierung
des
Datenmaterials stellt in Anbetracht der Volumina eine der großen Herausforderungen der
heutigen Zeit. Im nachstehenden Abschnitt werden verschiedene Methoden der Informationsund Datenvisualisierung betrachtet und klassifiziert.
4.2 Klassifikation Visueller Data Mining Techniken6
Eine kleine Anzahl von Darstellungstechniken ist uns bereits bekannt. X-Y-Plots,
Histogramme, Streudiagramme oder Boxplots stellen jedoch eine begrenzte Funktionalität im
Bezug auf große Datenmengen. In der letzen Zeit wurden eine Vielzahl neuer weitaus
leistungsfähigere Techniken entwickelt. Diese Techniken lassen sich mittels drei Kriterien
klassifizieren.

Nach Art der Daten
o Eindimensional, Multidimensional
o Text
o Hierarchien und Graphen
o Algorithmen und Software

Nach verwendeter Visualisierungstechnik
o Standard 2D/3D Darstellungen (x-y-Plots oder Bar-Charts)
o Geometrisch Transformierte Ausgaben (Landkarten oder parallele Koordinaten)
o Symbolbasierte Darstellungen
o Pixelorientierte Ansätze
o Mehrschichtige Anzeigeverfahren

Nach verwendeten Interaktions- und Bearbeitungstechniken
o
6
Interaktive Projektionen
Vgl. Daniel A. Keim 2002
9
Die
o
Interaktives Filtern und Zoomen
o
Interaktives Bearbeiten
Betrachtungen
des
Abschnitts
4.3
beziehen
sich
auf
die
verwendete
Visualisierungstechnik.
4.3 Betrachtung nach der verwendeten Visualisierungstechnik
Als Ergänzung zu den allgemein bekannten 2D/3D-Techninken wie Balkendiagramme, x-y
(x-y-z) Koordinatensysteme oder Liniengraphen existieren eine ganze Reihe wesentlich
leistungsfähigere
Methoden.
Die
unterschiedlichen
Klassen
korrespondieren
mit
grundlegenden Visualisierungstechniken und werden je nach Softwaresystem mit einander
kombiniert.
Geometrically-Transformed
Displays
(Geometrisch
Transformierte
Ausgaben)
Techniken dieser Art versuchen „interessante“ Transformationen des multidimensionalen
Datenaufkommens zu finden. In der Klasse der geometrischen Anzeigetechniken finden sich
Methoden der explorativen Statistik wie z.B. Scatterplot-Matrizen. Eine der bekanntesten
Techniken dieses Feldes ist die der parallelen Koordinaten. Bei dieser Technik wird jede
Dimension als eine parallele Achse dargestellt. Jede einzelne wird linear skaliert und verläuft
vom minimalen bis zum maximalen Wert innerhalb der entsprechenden Dimension. Jedes
einzelne Datentupel wird als eine Linie eingezeichnet und schneidet die Dimensionsachsen in
dem ihr zugeordneten Wert. Abbildung 3 veranschaulicht diese Technik.
Abb. 3
Iconic Displays (Symbolbasierte Anzeigetechniken) Bei dieser Methode werden die
Attributwerte der multidimensionalen Objekte auf die verschiedenen Merkmale des Symbols
10
abgebildet. Darstellungen als Sterne, gekachelte Balken, Nadelköpfe, Strichfiguren oder
einfachen Farbsymbolen fallen unter diese Kategorie. Bei der Darstellung in Strichfiguren
beispielsweise werden 2 Dimensionen auf die Länge und Höhe des Schirms projiziert. Die
restlichen Dimensionen finden sich in der Winkelstellung bzw. der Länge der Linien. Ein
weiterer aber in Bezug auf die Datenmengen nicht so leistungsfähiger Ansatzpunkt sind die so
genannten „Chernoff faces“. Diese Möglichkeit nutzt verschiedene Gesichtsmerkmale um die
Wertigkeiten in den verschiedenen Dimensionen darstellen zu können. Abbildung 4
verdeutlicht die Darstellung als Strichkombination. Kombinationen aus Strichfiguren und
Gesichtsdarstellungen finden sich als Strichmännchen wieder.
Abb. 4
Liegt das Datenmaterial in Bezug auf die zwei Bildschirmdimensionen eng bei einander, so
können resultierenden Muster durch aufmerksame Betrachtung erkannt werden. Abbildung 5
zeigt Bildungsstand, Tätigkeit, Geschlecht und materielle Stellung in Bezug auf Alter und
Einkommen.
11
Abb. 5
Dense Pixel Displays (Pixelbasierte Ansätze) Die Grundidee bei dieser Art Technik liegt
darin, jeden Datenwert einer Dimension in dem dafür abgegrenzten Bereich durch jeweils
einen gefärbten Bildpunkt anzuzeigen. Da man für jedes Datum jeweils nur einen Punkt je
Dimension benötigt, kann mittels dieser Methode der im Vergleich größte Datenumfang
bewältigt werden. Die zentrale Fragestellung in diesem Bereich besteht in der Organisation
und Anordnung der Dimensionsbereiche. Je nachdem wie man die Punkte auf dem
Bildschirm
arrangiert
lassen
sich
detaillierte
Informationen
über
Korrelationen,
Abhängigkeiten und andere Besonderheiten erkennen. Abbildung 6 zeigt zwei bekannte
Vertreter in der Anwendung dieser Methode. Die Darstellung links nutzt die so genannten
rekursiven Muster (recusive pattern technique), die Grafik auf der rechten Seite zeigt die
Methode des segmentierten Kreises (circle segments technique).
12
Abb. 6
Stacked Displays (Verschachtelnde Verfahren) Diese Verfahren sind zugeschnitten auf die
Darstellung gruppierter Daten in Hierarchien. Bei mehrdimensionalen Datenbeständen
müssen entsprechend geeignete Gruppierungsdimensionen erst ausgewählt werden. Ein
Beispiel für diese Kategorie ist das verschachteln von Dimensionen (dimensional stacking).
Prinzipiell werden hier Koordinatensysteme in ein Koordinatensystem integriert. Je nach
Bedarf können diese dann ebenfalls verschachtelt sein. Die Aussagekraft derartiger Anzeigen
hängen in hohem Maße von der Datenverteilung innerhalb der äußeren Dimensionen ab. Aus
diesem Grund muss bei diesen Betrachtungen ein großes Augenmerk auf die Auswahl der
äußeren Attribute gelegt werden. Hier existiert eine Daumenregel welche die wichtigsten zwei
Attribute in den Fordergrund stellt. Abbildung 7 zeigt die Anwendung der Technik auf
Ölförderdaten. Die beiden äußeren Dimensionen bestimmten den Längen- und den
Breitengrad des Vorkommens. Fördertiefe und Erzsorte finden sich an den Achsen der
inneren Koordinatensysteme.
Abb. 7
13
5. Anwendungsumgebungen7
Ein letztes Kapitel befasst sich mit exemplarisch erwähnten Anwendungsgebieten des Data
Mining. Es existieren viele denkbare Einsatzmöglichkeiten der verschiedenen Techniken,
wobei hier nur eine geringe Auswahl betrachtet wird.
In Chemie und Pharmazie ergibt sich grundsätzlich ein hohes Datenaufkommen sowohl für
interne als auch für externe Zwecke. Ein wichtiges Einsatzfeld für Data Mining
Anwendungen findet sich bei näherer Betrachtung des Entwicklungsprozesses innerhalb der
chemischen Industrie. Der Prozess vollzieht sich von der Funktionsdefinition hin zu einer
strukturellen Beschreibung des Präparates. Im Allgemeinen versucht man dabei alle
denkbaren Möglichkeiten zu generieren und aus diesen das optimal passenden zu extrahieren.
An diesem Punkt lässt sich auch eine Eigenheit des Chemiebereiches erkennen. Im Vergleich
zu anderen Entwicklungsprozessen fällt ein Großteil des Aufwands in der Suchphase an. Sie
nimmt die meiste Zeit in Anspruch und ist damit Ansatzpunkt für Verbesserungen. Data
Mining Verfahren können die Suche nach geeigneten Chemikalien beschleunigen und
dadurch den Gesamtentwicklungsprozess effizienter machen. Experimente und Test können
wesentlich schneller und in größeren Erfolgsaussichten ausgeführt werden. Data Mining
Methoden könnten zum Beispiel Bindungspartner suchen, Moleküle nach ähnlichen
Strukturen gruppieren, Wirkungszusammenhänge erkennen oder den Verlauf eines
Experimentes prognostizieren. Ein anderes Einsatzgebiet des DM in der ChemischPharmazeutischen Industrie ist die Feldforschung. Erkenntnisse aus klinischen Test und
Erfahrungen aus der Verwendung in der Industrie können integriert betrachtet und analysiert
werden.
Im Einzelhandel finden sich Data Mining Lösungen häufig in Verbindung mit
Kundenanalysen, Marktbetrachtungen und Prognosen wieder. Kunden lassen sich
klassifizieren, Märkte können Segmentweise und somit Kundenspezifisch bearbeitet werden.
Warenkorbanalysen treffen Aussagen über das Kaufverhalten der Klientel. Hier besteht
jedoch die Gefahr, dass die betrachteten Einflussgrößen nicht ausreichen bzw. die
evolutionäre Veränderung der Merkmale nicht beachtet werden können.
7
Vgl. D. T. Larose 2005
14
Im Finanzwesen finden sich Ansatzpunkte für Data Mining sowohl im Bereich des
Kundenmanagement als auch bei Finanzprognosen. Die im Kundenmanagement verwendeten
Funktionen sind denen des Handels quasi identisch. Zeitreihenbetrachtungen und
Extrapolationen hingegen stellen einen komplexen Problembereich des DM. In diesem
Bereich stellt sich sogar die grundsätzliche Frage nach der Machbarkeit von Fortschreibungen
und derartigen Prognosen. Die Zusammenhänge auf den Finanzmärkten lassen sich meist nur
in komplizierten ökonomischen Modellen erfassen. Diese Modelle sind derart komplex, dass
eine annähernd sichere Prognose auf Grund von Unsicherheit kaum mehr möglich ist.
In der Mess- und Informationstechnik finden sich häufig DM-Anwendungen. In diesem
Bereich ergeben sich die wohl größten Datenaufkommen. Wetterstationen, Messung
tektonischer
Aktivitäten,
Geodaten
von
Satelliten,
Mobilfunkdaten
oder
diverse
Sicherheitseinrichtungen. Riesige Supercomputer versuchen das Wetter oder gar die
Klimaentwicklung
Aktivitäten.
vorherzusagen.
Ein
Geoüberwachungssysteme
Sicherheitssystem
erkennt
als
warnen
bei
„gefährlich“
kritischen
eingestufte
Persönlichkeitsmerkmale, registriert die Peron, stellt deren Identität fest und alarmiert die
Staatsmacht.
Weitere Einsatzmöglichkeiten ergeben sich Beispielsweise im eCommerce. Ich könnte mein
Shopsystem am Verhalten meiner Kunden evaluieren. Unter dem Schlagwort „Path traversal
Pattern Mining“ finden sich entsprechende Ansätze. Hierbei wird die Nutzeraktivität
registriert und ausgewertet. Es besteht hier prinzipiell die Möglichkeit nicht nur den Weg des
Nutzers nachzuvollziehen, sondern auch Mausaktivitäten und –position zu untersuchen. Wo
halten sich meine Kunden wie lange auf, wo entstehen gehäuft Probleme- kommt es gar zum
Abbruch
einer
Transaktion.
Ich
hätte
weiterhin
die
Möglichkeit
entsprechend
nutzerspezifische Angebote zu platzieren oder das Shopsystem an sich an ein Nutzersegment
anzupassen.
15
6. Ausblick
Die Thematik Data Mining füllt diverse Buchbände und kann kaum umfassend aufgearbeitet
werden. DM-Systeme erfreuen sich einer großen Beliebtheit unterscheiden sich jedoch
teilweise signifikant in ihrem Funktionsumfang. Eine breite Sicht auf technische
Implementierungen der einzelnen Bereiche bietet das frei erhältliche Weka-Framework.8 Ein
großer Vorteil liegt in der sehr guten Dokumentation der im System implementierten
Verfahren.9 Grundsätzlich lässt sich der Faktor Mensch nie aus dem Mining-Prozess
eliminieren. Es ist daher ein gesetztes Ziel die verschiedenen Techniken effektiv zu verbinden
und dem Analysten zugänglich zu machen. Integrierende Ansätze finden sich z. B. unter dem
Schlagwort der „wissensbasierten Benutzerschnittstelle“. Das Verständnis für die Methoden
des Data Mining ist eine der wesentlichen Voraussetzungen für deren erfolgreichen Einsatz.
Ich hoffe mit diesem Dokument einen kleinen Beitrag zu diesem Verständnis beigetragen zu
haben.
8
9
Vgl. http://www.cs.waikato.ac.nz/ml/
Vgl I. H. Witten, E. Frank 2001
16
7. Literaturverzeichnis
[1] Daniel T. Larose „Discovering Knowledge in Data, An Intoduction in Data Mining“
Verlag Wiley 2005
[2] J. Han, M. Kamber „Data Mining: Concepts and Techniques“ Verlag Morgan Kaufmann
Publishers 2000
[3] Two Crows Cooperation „Introduction to Data Mining and Knowledge Discovery“ Third
Edition 1999
[4] K. M. Decker, S. Focardi „Technology Overview: A report on Data Mining“ CSCS-ETH
1995
[5] M. Chen, J. Han, P. S. Yu „Data Mining: An Overview from Database Perspective” 1996
[6] D. A. Keim “Information Visualization and Visual Data Mining” in IEEE
TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 7, NO. 1,
JANUARY-MARCH 2002 Seite 100-107
[7] H. Witten, E. Frank 2001 “Data Mining Practical Machine Learning Tools and
Techniques” Verlag Morgan Kaufmann
17
Herunterladen