Seminar im Sommersemester 2005 „DATA WAREHOUSING“ Thema: Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken und Informationssysteme Lehrstuhlinhaber Prof. Dr. Klaus Küspert Betreuung Dipl. –Inf. Thomas Müller Inhalt 1. Einleitung ............................................................................................................................... 2 2. Einführung und Überblick ...................................................................................................... 2 2.1 Die Begrifflichkeit „Data Mining“ ................................................................................... 2 2.2 Rund um Data Mining ...................................................................................................... 4 3. Verfahren des Data Mining .................................................................................................... 4 3.1 Klassifizierungsmöglichkeiten ......................................................................................... 4 3.2 Was Data Mining leistet ................................................................................................... 5 3.2.1 Beschreibung (Description)....................................................................................... 5 3.2.2 Klassifikation (Classification) ................................................................................... 5 3.2.3 Schätzung (Estimation) ............................................................................................. 6 3.2.4 Prognosen (Prediction, Forecasting) ......................................................................... 7 3.2.5 Segmentierung und Gruppenbildung (Clustering) .................................................... 8 3.2.6 Assoziation (Association) ......................................................................................... 8 4. Visualisierungstechniken im Data Mining ............................................................................. 9 4.1 Motivation ........................................................................................................................ 9 4.2 Klassifikation Visueller Data Mining Techniken............................................................. 9 4.3 Betrachtung nach der verwendeten Visualisierungstechnik ........................................... 10 5. Anwendungsumgebungen .................................................................................................... 14 6. Ausblick ............................................................................................................................... 16 7. Literaturverzeichnis .............................................................................................................. 17 1. Einleitung Unsere Gesellschaft ist in aller Munde als „Informations- und Mediengesellschaft“. In der Tat stellt technischer Fortschritt und dessen Anwendung einen umfassenden Bereich unseres täglichen Lebens Zahlungsvorgänge dar. oder Ob Telefonverbindungen, biometrische Informationen Mailverkehr, - Flugbuchungen, unweigerlich mit allen Gesellschaftssystemen verbunden sind Daten. Überall werden sie generiert, gesammelt und gespeichert; Datenvorkommen im Petabytebereich stellen keine Seltenheit mehr dar. Dieses Dokument soll dem Leser einen Einblick in die Materie des Data Mining vermitteln. Nachdem auf einige Begriffe der Umgebung eingegangen wird sollen in den nächsten Abschnitten die Leistungen des Data Mining und dessen Anwendung in ausgesuchten Gebieten vorgestellt werden. Diese Arbeit ist eine individuelle Sicht auf das Themengebiet und in ihrem Umfang beschränkt. Dem interessierten Rezipienten sei darüber hinaus in den einzelnen Kapiteln die zu Grunde liegende Literatur empfohlen. 2. Einführung und Überblick 2.1 Die Begrifflichkeit „Data Mining“ Ein intuitiver Erklärungsansatz erschließt sich bereits durch eine einfache Betrachtung. Wörtlich geht es um den „Daten-Bergbau“. Es lässt sich etwa leicht mit den Sieben Zwergen vergleichen. Die laufen jeden Tag in ihre Stollen im Berg und suchen nach Kostbarkeiten. Was für die Sieben Zwerge Diamanten, Edelsteine und Gold, ist für uns der Faktor Wissen. Und ähnlich den Zwergen schürfen wir durch Attributwerte und Relationen um verborgene Zusammenhänge aufzudecken. Dem Schürfer erschließen sich abstrakte Erkenntnisse über das Datenmaterial welche er als Folge zweckmäßig zu seinem Nutzen einsetzen kann. Da die Vielzahl des Datenaufkommens menschliche Handlungen wiederspiegeln erschließt sich eine einfache ökonomische Motivation. Wissen über komplexe Zusammenhänge in menschlicher Aktion stellt eine große ökonomische Macht dar. Wissen bzw. asymmetrisch verteilte Informationen sind ein Vorteil auf umstrittenen Märkten. Oder frei nach Francis Bacon: „Wissen ist Macht“. Der Begriff des „Data Mining“ (DM) wird in der Literatur unterschiedlich hinterlegt. Dem entsprechend zeigen die einzelnen Ausführungen der Autoren unterschiedliche Blickwinkel auf die verschiedenen Themengebiete. Zum einen existiert Data Mining im Zusammenhang 2 mit dem Begriff des „Knowledge Discovery in Large Databases“ (KDD) wobei Data Mining selbst als eine Funktion in einem Prozessmodell in Erscheinung tritt. Ein weiter gefasstes Begriffsverständnis verwendet den Begriff des Data Mining als Synonym für den Prozess des Wissenserwerbs, also gleichgesetzt zu KDD. Als der wohl bekanntester Vertreter dieser Sichtweise hat sich z.B. der „Cross Industrie Standart Process for Data Mining“ (CRISP-DM) etabliert. Das Prozessmodell beschreibt den Miningprozess als Gesamtheit einer zielgerichteten, iterativen Phasenabfolge und bietet, ähnlich dem KDD-Prozessmodell, eine Vorgehensreferenz. Han und Kamber bestätigen diese Sichtweisen und formulieren sie explizit. „Many people treat data mining as a synonym for another popularly used term, ‘Knowledge Discovery in Databases’, or KDD. Alternatively, others view data mining as simply an essential step in the process of knowledge discovery in databases. (…)We adopt a broad view of data mining functionality: data mining is the process of discovering interesting knowledge from large amounts of data stored either in databases, data warehouses, or other information repositories.” 1 Sie sehen Data Mining als ein komplexes Gebilde aus vielen unterschiedlichen Teildisziplinen. „Data mining is a multidisciplinary field, drawing work from areas including database technology, articial intelligence, machine learning, neural networks, statistics, pattern recognition, knowledge based systems, knowledge acquisition, information retrieval, high performance computing, and data visualization.“ Decker und Focardi betrachten in ihren Ausführungen hingegen eher ein spezifisches, technisches Bild von Data Minng. „Data mining is a problemsolving methodology that finds a logical or description, eventually of a complex nature, of patterns 1 2 mathematical and regularities in a set of data.“2 Vgl. Han, Kamber 2000 Kap. 1.2 Vgl. Decker, Focardi 1995 3 2.2 Rund um Data Mining3 Im Zusammenhang mit Data Mining fallen häufig weitere Schlagworte wie „Data Warehousing“ (DW) oder „Online Analytical Processing“ (OLAP). Data Warehouses übernehmen in vielen Fällen Datenhaltungs- und Aufbereitungsaufgaben für das Data Mining. Ein Data Warehouse übernimmt komplexe Aufgaben bei der Integration, Transformation und Agregation großer Datenvolumen. Teile des Warehouse können als so genannter „Data Mart“ für das Mining zugänglich gemacht werden. Data Mining ist grundsätzlich auch ohne ein Data Warehouse möglich. Die Verfahren des Data Mining arbeiten prinzipiell auch auf kleinen Datenmengen. Kleine Datenaufkommen lassen sich noch relativ kostengünstig per Hand aufbereiten. Die Entscheidung für oder gegen ein Warehouse fällt über ein Abwägen von Vorund Nachteilen eines DW in der vorliegenden Problemumgebung. Online Analytical Processing ist ein weiterer Analyseansatz der jedoch eine Methodik aufweist die sich von der des Data Mining unterscheidet. OLAP dient der Verifizierung von Hypothesen. Es bietet unterschiedlich abstrahierte Sichten auf die Daten und ermöglicht eine navigierende Fundierung einer bereits vorhandenen Behauptung. OLAP ist im Gegensatz zu DM ein deduktives Verfahren. DM ist konzipiert semiautomatisch Muster, Zusammenhänge und Regeln innerhalb eines Datenbestandes zu entdecken. OLAP ist im Gegensatz zu DM beschränkter was die Komplexität des erfassbaren Datenmaterials angeht. DM arbeitet auf großen Datenmengen und versteht sich im Umgang mit umfangreichen Dimensionszahlen. 3. Verfahren des Data Mining 3.1 Klassifizierungsmöglichkeiten4 Das nachstehende Kapitel soll eine Einsicht in die Techniken und Leistungen des Data Mining vermitteln. Um eine Klassifikation der unterschiedlichen Techniken vornehmen zu können betrachten wir zunächst drei verschiedene Möglichkeiten. Nach Art der Datenbank Hier erfolgt eine Einteilung der Techniken anhand des Datenbanktyps. Zu nennen wären unter anderen: relationale, objektorientierte oder transaktionale Datenbanken. 3 4 Nach der grundlegend verwendeten Technik Vgl. Two Crows Cooperation 1999 Vgl. Chen, Han, Yu 1996 4 Über dieses Schema lassen sich DM-Techniken in grundlegende Felder wie Anfragegestütztes DM, Muster basiertes DM oder interaktives DM finden. Es besteht auch die Möglichkeit die verschiedenen Techniken entsprechend ihrer statistischen oder mathematischen Herangehensweise einzuteilen. Nach Art des erlangten Wissens Es lassen sich einige typische Wissensarten unterscheiden. Dazu zählen Datenbeschreibung, Assoziationsregeln, Segmentebildung, Schätzungen, Voraussage und Klassifikation. Die verschiedenen Techniken lassen sich weiterhin nach dem Abstraktionsniveau des Wissens einordnen. So unterscheidet man zwischen einfachen Fakten, Verallgemeinerungen und Abstraktem Wissen. Der nachfolgende Abschnitt orientiert sich an der Einteilung der Techniken nach der Art des Wissens und erhebt selbstverständlich keinen Anspruch auf Vollständigkeit. Auch die einzelnen technischen Hintergründe werden an dieser Stelle nicht näher erläutert. 3.2 Was Data Mining leistet5 3.2.1 Beschreibung (Description) In manchen Fällen geht es den Forschern und Analysten schlicht darum Muster oder Trends innerhalb des Datenmaterials zu beschreiben. Dabei kommt es im Wesentlichen auf Verständlichkeit und Einfachheit der Darstellungen an. Betrachtet man beispielsweise einen Entscheidungsbaum, so kann man an diesem leicht intuitiv ein Regelwerk veranschaulichen. Ein neurales Netz hingegen ist in dieser Hinsicht wesentlich schwerer verständlich. Der Betrachter soll einen Überblick in die Daten erhalten und gegebenenfalls die Möglichkeit haben auf Auffälligkeiten reagieren zu können. In diesem Bereich spielen Visualisierungstechniken wie sie in Kapitel 4 betrachtet werden eine wesentliche Rolle. 3.2.2 Klassifikation (Classification) Bei der Klassifikation wird einem neuen Datensatz automatisch ein Wert in einer Zielvariablen zugewiesen. Es handelt sich um eine Art Aggregation, da dem neuen Satz auf Grund seiner Konfiguration eine abstrakte, nominale Eigenschaft zugewiesen wird. Abbildung 1 zeigt den schematischen Ablauf einer Klassifikation im Überblick. 5 Vgl. Daniel. T. Larose 2005 5 Abb. 1 Eine Klassifikation kann erst ablaufen wenn entsprechende Klassifikationsregeln existieren. Diese Regeln werden im Allgemeinen durch Methoden des „supervised learning“ generiert bzw. erlernt. Supervised deshalb, weil das Regelwerk anhand bereits klassifizierter Datentupel (Training Set Data) erstellt wird. Besteht erst einmal ein derartiges Schema, so können neue, nicht klassifizierte Datensätze (Test Set Data) automatisch kategorisiert werden. Versicherungsnehmer werden in Gefahrenstufen eingeordnet. Gesichtsmerkmale werden als verdächtig betrachtet. Klassifikation lässt sich leicht an menschlichem Verhalten veranschaulichen. Wir betrachten Individuen unter verschiedenen Gesichtspunkten. Wir verarbeiten wahrgenommene Reize durch eine Zuordnung zu bereits bekanntem. Treten uns Personen gegenüber, so klassifizieren wir diese nach einem individuell erlernten Schema. 3.2.3 Schätzung (Estimation) Schätzungen unterscheiden sich von der Klassifikation darin, dass die zu bestimmende Wertausprägung in der Zielvariablen numerisch ist. Es gibt verschiedenste Ausprägungen: Regressionen, Punkt- oder Intervallschätzungen. Das wohl bekannteste und einfachste Beispiel ergibt sich beim Einsatz von Regressionsgleichungen. Regressionsverfahren approximieren Schätzfunktionen mit deren Hilfe später neue Wertepaare bestimmt werden können. Betrachten wir den Zusammenhang wie ihn Abbildung 2 zeigt. 6 Abb. 2 Dass es sich um eine relativ schlechte Regression handelt sei nur am Rande erwähnt. Für die prinzipielle Betrachtung gehen wir davon aus ein entsprechendes Verfahren liefert uns eine Regressionsgleichung der Art: max Speed (knots) = 40,795+0,426*Horsepower. Die Parameter der Gleichung werden auf Grund des Datenmaterials geschätzt. Somit sind auch alle über die Regressionsgleichung berechneten Wertekombinationen Schätzungen. Sie ist eine geschätzte Funktion mit deren Hilfe man schätzen kann. Eine weitere Anwendung von Schätzungen ergibt sich im Bereich von Verteilungen. Kann man von der Normalverteilung einer Variablen ausgehen, kennt jedoch weder Mittelwert noch Standartabweichung, so kann man diese Parameter auf Grund der Stichprobe Mittels spezieller Funktionen schätzen. 3.2.4 Prognosen (Prediction, Forecasting) Voraussagen sind eine besondere Ausprägung von Klassifikation und Schätzung. Der wesentliche Unterschied liegt darin, dass die zu errechnenden Ergebnisse in der Zukunft liegen. Zeitreihenfortschreibungen stellen den wohl bekanntesten Vertreter dieser Klasse. Die Voraussage von Absatz- oder Kursentwicklungen lassen die Anwendung klar werden. 7 3.2.5 Segmentierung und Gruppenbildung (Clustering) Bei der Segmentierung geht es um eine Zuordnung möglichst gleichartiger Objekte in verschiedene homogene Gruppen. Innerhalb der Gruppen soll eine möglichst maximale Ähnlichkeit erreicht werden. Zwischen den Gruppen wiederum soll die Distanz maximal werden. Marktsegmentierungen oder Kundenbetrachtungen sind populäre Vertreter dieser Gattung. Es erfolgt eine Gruppenzuordnung jedoch im Vergleich zur Klassifizierung besteht keine explizite Zielvariable. Clustering ist vielmehr in der Lage Variablen zu entdecken. Habe ich beispielsweise meine Kunden gruppiert, so kann ich anhand dieser Klassifikationsregeln erlernen und neue Kunden direkt einer Gruppe zuordnen. 3.2.6 Assoziation (Association) Über Assoziationen lassen sich Zusammenhänge in Datenbeständen entdecken. Eingesetz wird diese Technik häufig bei Warenkorbanalysen. Sie ermöglicht es quantitative Aussagen über den Zusammenhang von Waren untereinander. So könnte man in einem Supermarkt evtl. herausfinden, dass beim Kauf von Bier mit einer bestimmten Sicherheit auch Wein gekauft wird. Diese Sicherheit findet sich in definierten Kennzahlen, wie dem so genannten „Support“ und „Confidence“. Betrachten wir ein einfaches Beispiel: Gehen wir davon aus wir haben 400 registrierte Warenkörbe und haben festgestellt, dass in 200 von 400 Kekse gekauft wurden. Weiterhin konnte man herausfiltern, dass 100 von den 200 Kekskäufern weiterhin Schokoaufstrich gekauft haben. Wir können als folgende Regel ableiten. Wenn Kekse, dann Schokoaufstrich. Natürlich könnte man viele derartige Zuordnungen finden. Betrachten wir uns zunächst die bereits erwähnten Kennzahlen. Der Support für diese Behauptung beträgt 200/400 also 50%. Die Confidence beträgt 100/200 also ebenfalls 50%. Es liegt im Grunde bei jedem Analysten ab welchen Werten für die beiden Kennzahlen eine Behauptung auch angenommen wird. Das derartige Analysen Sinn machen zeigt die folgende Überlegung. Gehen wir einmal davon aus, wir haben ein Produkt welches aus dem Sortiment entfernt werden soll. Werden jedoch in Verbindung mit dem entsprechenden Produkt noch weitere Waren gekauft, so könnte sich eine Produktelimination negativ auf die anderen Verkaufszahlen auswirken. 8 4. Visualisierungstechniken im Data Mining 4.1 Motivation Prinzipiell ist es notwendig den Mensch, sein Wissen und kreative Fähigkeiten in den Data Mining Prozess zu integrieren. Da ohne ein Verständnis der Daten ist eine zielgerichtete Analyse kaum möglich ist müssen hier menschliche Fähigkeiten und technische Möglichkeiten optimal miteinander kombiniert werden. Die Visualisierung des Datenmaterials stellt in Anbetracht der Volumina eine der großen Herausforderungen der heutigen Zeit. Im nachstehenden Abschnitt werden verschiedene Methoden der Informationsund Datenvisualisierung betrachtet und klassifiziert. 4.2 Klassifikation Visueller Data Mining Techniken6 Eine kleine Anzahl von Darstellungstechniken ist uns bereits bekannt. X-Y-Plots, Histogramme, Streudiagramme oder Boxplots stellen jedoch eine begrenzte Funktionalität im Bezug auf große Datenmengen. In der letzen Zeit wurden eine Vielzahl neuer weitaus leistungsfähigere Techniken entwickelt. Diese Techniken lassen sich mittels drei Kriterien klassifizieren. Nach Art der Daten o Eindimensional, Multidimensional o Text o Hierarchien und Graphen o Algorithmen und Software Nach verwendeter Visualisierungstechnik o Standard 2D/3D Darstellungen (x-y-Plots oder Bar-Charts) o Geometrisch Transformierte Ausgaben (Landkarten oder parallele Koordinaten) o Symbolbasierte Darstellungen o Pixelorientierte Ansätze o Mehrschichtige Anzeigeverfahren Nach verwendeten Interaktions- und Bearbeitungstechniken o 6 Interaktive Projektionen Vgl. Daniel A. Keim 2002 9 Die o Interaktives Filtern und Zoomen o Interaktives Bearbeiten Betrachtungen des Abschnitts 4.3 beziehen sich auf die verwendete Visualisierungstechnik. 4.3 Betrachtung nach der verwendeten Visualisierungstechnik Als Ergänzung zu den allgemein bekannten 2D/3D-Techninken wie Balkendiagramme, x-y (x-y-z) Koordinatensysteme oder Liniengraphen existieren eine ganze Reihe wesentlich leistungsfähigere Methoden. Die unterschiedlichen Klassen korrespondieren mit grundlegenden Visualisierungstechniken und werden je nach Softwaresystem mit einander kombiniert. Geometrically-Transformed Displays (Geometrisch Transformierte Ausgaben) Techniken dieser Art versuchen „interessante“ Transformationen des multidimensionalen Datenaufkommens zu finden. In der Klasse der geometrischen Anzeigetechniken finden sich Methoden der explorativen Statistik wie z.B. Scatterplot-Matrizen. Eine der bekanntesten Techniken dieses Feldes ist die der parallelen Koordinaten. Bei dieser Technik wird jede Dimension als eine parallele Achse dargestellt. Jede einzelne wird linear skaliert und verläuft vom minimalen bis zum maximalen Wert innerhalb der entsprechenden Dimension. Jedes einzelne Datentupel wird als eine Linie eingezeichnet und schneidet die Dimensionsachsen in dem ihr zugeordneten Wert. Abbildung 3 veranschaulicht diese Technik. Abb. 3 Iconic Displays (Symbolbasierte Anzeigetechniken) Bei dieser Methode werden die Attributwerte der multidimensionalen Objekte auf die verschiedenen Merkmale des Symbols 10 abgebildet. Darstellungen als Sterne, gekachelte Balken, Nadelköpfe, Strichfiguren oder einfachen Farbsymbolen fallen unter diese Kategorie. Bei der Darstellung in Strichfiguren beispielsweise werden 2 Dimensionen auf die Länge und Höhe des Schirms projiziert. Die restlichen Dimensionen finden sich in der Winkelstellung bzw. der Länge der Linien. Ein weiterer aber in Bezug auf die Datenmengen nicht so leistungsfähiger Ansatzpunkt sind die so genannten „Chernoff faces“. Diese Möglichkeit nutzt verschiedene Gesichtsmerkmale um die Wertigkeiten in den verschiedenen Dimensionen darstellen zu können. Abbildung 4 verdeutlicht die Darstellung als Strichkombination. Kombinationen aus Strichfiguren und Gesichtsdarstellungen finden sich als Strichmännchen wieder. Abb. 4 Liegt das Datenmaterial in Bezug auf die zwei Bildschirmdimensionen eng bei einander, so können resultierenden Muster durch aufmerksame Betrachtung erkannt werden. Abbildung 5 zeigt Bildungsstand, Tätigkeit, Geschlecht und materielle Stellung in Bezug auf Alter und Einkommen. 11 Abb. 5 Dense Pixel Displays (Pixelbasierte Ansätze) Die Grundidee bei dieser Art Technik liegt darin, jeden Datenwert einer Dimension in dem dafür abgegrenzten Bereich durch jeweils einen gefärbten Bildpunkt anzuzeigen. Da man für jedes Datum jeweils nur einen Punkt je Dimension benötigt, kann mittels dieser Methode der im Vergleich größte Datenumfang bewältigt werden. Die zentrale Fragestellung in diesem Bereich besteht in der Organisation und Anordnung der Dimensionsbereiche. Je nachdem wie man die Punkte auf dem Bildschirm arrangiert lassen sich detaillierte Informationen über Korrelationen, Abhängigkeiten und andere Besonderheiten erkennen. Abbildung 6 zeigt zwei bekannte Vertreter in der Anwendung dieser Methode. Die Darstellung links nutzt die so genannten rekursiven Muster (recusive pattern technique), die Grafik auf der rechten Seite zeigt die Methode des segmentierten Kreises (circle segments technique). 12 Abb. 6 Stacked Displays (Verschachtelnde Verfahren) Diese Verfahren sind zugeschnitten auf die Darstellung gruppierter Daten in Hierarchien. Bei mehrdimensionalen Datenbeständen müssen entsprechend geeignete Gruppierungsdimensionen erst ausgewählt werden. Ein Beispiel für diese Kategorie ist das verschachteln von Dimensionen (dimensional stacking). Prinzipiell werden hier Koordinatensysteme in ein Koordinatensystem integriert. Je nach Bedarf können diese dann ebenfalls verschachtelt sein. Die Aussagekraft derartiger Anzeigen hängen in hohem Maße von der Datenverteilung innerhalb der äußeren Dimensionen ab. Aus diesem Grund muss bei diesen Betrachtungen ein großes Augenmerk auf die Auswahl der äußeren Attribute gelegt werden. Hier existiert eine Daumenregel welche die wichtigsten zwei Attribute in den Fordergrund stellt. Abbildung 7 zeigt die Anwendung der Technik auf Ölförderdaten. Die beiden äußeren Dimensionen bestimmten den Längen- und den Breitengrad des Vorkommens. Fördertiefe und Erzsorte finden sich an den Achsen der inneren Koordinatensysteme. Abb. 7 13 5. Anwendungsumgebungen7 Ein letztes Kapitel befasst sich mit exemplarisch erwähnten Anwendungsgebieten des Data Mining. Es existieren viele denkbare Einsatzmöglichkeiten der verschiedenen Techniken, wobei hier nur eine geringe Auswahl betrachtet wird. In Chemie und Pharmazie ergibt sich grundsätzlich ein hohes Datenaufkommen sowohl für interne als auch für externe Zwecke. Ein wichtiges Einsatzfeld für Data Mining Anwendungen findet sich bei näherer Betrachtung des Entwicklungsprozesses innerhalb der chemischen Industrie. Der Prozess vollzieht sich von der Funktionsdefinition hin zu einer strukturellen Beschreibung des Präparates. Im Allgemeinen versucht man dabei alle denkbaren Möglichkeiten zu generieren und aus diesen das optimal passenden zu extrahieren. An diesem Punkt lässt sich auch eine Eigenheit des Chemiebereiches erkennen. Im Vergleich zu anderen Entwicklungsprozessen fällt ein Großteil des Aufwands in der Suchphase an. Sie nimmt die meiste Zeit in Anspruch und ist damit Ansatzpunkt für Verbesserungen. Data Mining Verfahren können die Suche nach geeigneten Chemikalien beschleunigen und dadurch den Gesamtentwicklungsprozess effizienter machen. Experimente und Test können wesentlich schneller und in größeren Erfolgsaussichten ausgeführt werden. Data Mining Methoden könnten zum Beispiel Bindungspartner suchen, Moleküle nach ähnlichen Strukturen gruppieren, Wirkungszusammenhänge erkennen oder den Verlauf eines Experimentes prognostizieren. Ein anderes Einsatzgebiet des DM in der ChemischPharmazeutischen Industrie ist die Feldforschung. Erkenntnisse aus klinischen Test und Erfahrungen aus der Verwendung in der Industrie können integriert betrachtet und analysiert werden. Im Einzelhandel finden sich Data Mining Lösungen häufig in Verbindung mit Kundenanalysen, Marktbetrachtungen und Prognosen wieder. Kunden lassen sich klassifizieren, Märkte können Segmentweise und somit Kundenspezifisch bearbeitet werden. Warenkorbanalysen treffen Aussagen über das Kaufverhalten der Klientel. Hier besteht jedoch die Gefahr, dass die betrachteten Einflussgrößen nicht ausreichen bzw. die evolutionäre Veränderung der Merkmale nicht beachtet werden können. 7 Vgl. D. T. Larose 2005 14 Im Finanzwesen finden sich Ansatzpunkte für Data Mining sowohl im Bereich des Kundenmanagement als auch bei Finanzprognosen. Die im Kundenmanagement verwendeten Funktionen sind denen des Handels quasi identisch. Zeitreihenbetrachtungen und Extrapolationen hingegen stellen einen komplexen Problembereich des DM. In diesem Bereich stellt sich sogar die grundsätzliche Frage nach der Machbarkeit von Fortschreibungen und derartigen Prognosen. Die Zusammenhänge auf den Finanzmärkten lassen sich meist nur in komplizierten ökonomischen Modellen erfassen. Diese Modelle sind derart komplex, dass eine annähernd sichere Prognose auf Grund von Unsicherheit kaum mehr möglich ist. In der Mess- und Informationstechnik finden sich häufig DM-Anwendungen. In diesem Bereich ergeben sich die wohl größten Datenaufkommen. Wetterstationen, Messung tektonischer Aktivitäten, Geodaten von Satelliten, Mobilfunkdaten oder diverse Sicherheitseinrichtungen. Riesige Supercomputer versuchen das Wetter oder gar die Klimaentwicklung Aktivitäten. vorherzusagen. Ein Geoüberwachungssysteme Sicherheitssystem erkennt als warnen bei „gefährlich“ kritischen eingestufte Persönlichkeitsmerkmale, registriert die Peron, stellt deren Identität fest und alarmiert die Staatsmacht. Weitere Einsatzmöglichkeiten ergeben sich Beispielsweise im eCommerce. Ich könnte mein Shopsystem am Verhalten meiner Kunden evaluieren. Unter dem Schlagwort „Path traversal Pattern Mining“ finden sich entsprechende Ansätze. Hierbei wird die Nutzeraktivität registriert und ausgewertet. Es besteht hier prinzipiell die Möglichkeit nicht nur den Weg des Nutzers nachzuvollziehen, sondern auch Mausaktivitäten und –position zu untersuchen. Wo halten sich meine Kunden wie lange auf, wo entstehen gehäuft Probleme- kommt es gar zum Abbruch einer Transaktion. Ich hätte weiterhin die Möglichkeit entsprechend nutzerspezifische Angebote zu platzieren oder das Shopsystem an sich an ein Nutzersegment anzupassen. 15 6. Ausblick Die Thematik Data Mining füllt diverse Buchbände und kann kaum umfassend aufgearbeitet werden. DM-Systeme erfreuen sich einer großen Beliebtheit unterscheiden sich jedoch teilweise signifikant in ihrem Funktionsumfang. Eine breite Sicht auf technische Implementierungen der einzelnen Bereiche bietet das frei erhältliche Weka-Framework.8 Ein großer Vorteil liegt in der sehr guten Dokumentation der im System implementierten Verfahren.9 Grundsätzlich lässt sich der Faktor Mensch nie aus dem Mining-Prozess eliminieren. Es ist daher ein gesetztes Ziel die verschiedenen Techniken effektiv zu verbinden und dem Analysten zugänglich zu machen. Integrierende Ansätze finden sich z. B. unter dem Schlagwort der „wissensbasierten Benutzerschnittstelle“. Das Verständnis für die Methoden des Data Mining ist eine der wesentlichen Voraussetzungen für deren erfolgreichen Einsatz. Ich hoffe mit diesem Dokument einen kleinen Beitrag zu diesem Verständnis beigetragen zu haben. 8 9 Vgl. http://www.cs.waikato.ac.nz/ml/ Vgl I. H. Witten, E. Frank 2001 16 7. Literaturverzeichnis [1] Daniel T. Larose „Discovering Knowledge in Data, An Intoduction in Data Mining“ Verlag Wiley 2005 [2] J. Han, M. Kamber „Data Mining: Concepts and Techniques“ Verlag Morgan Kaufmann Publishers 2000 [3] Two Crows Cooperation „Introduction to Data Mining and Knowledge Discovery“ Third Edition 1999 [4] K. M. Decker, S. Focardi „Technology Overview: A report on Data Mining“ CSCS-ETH 1995 [5] M. Chen, J. Han, P. S. Yu „Data Mining: An Overview from Database Perspective” 1996 [6] D. A. Keim “Information Visualization and Visual Data Mining” in IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 7, NO. 1, JANUARY-MARCH 2002 Seite 100-107 [7] H. Witten, E. Frank 2001 “Data Mining Practical Machine Learning Tools and Techniques” Verlag Morgan Kaufmann 17