Report : Data Mining Seite 1 von 10 Dr. Dietmar Janetzko, Kathleen Steinhöfel Lotsen los! Data Mining: Verborgene Zusammenhänge in Datenbanken aufspüren Die Stasi hatte das gleiche Problem, das die Bank Ihres Vertrauens immer noch hat: Die Datenflut schwappt immer höher, aber man weiß einfach nicht, wo die interessanten Informationen liegen. Wer mit gängigen Abfragesprachen das Wesentliche herausfischen will, muß schon vorher wissen, wonach er sucht. Data Mining ist anders: Es lotst uns zu nützlichen Antworten, bevor uns die passenden Fragen einfallen, und fördert aus den Tiefen des Datenmeeres Überraschendes zutage. Unterthema: Knowledge Discovery: Mehr als Mining Unterthema: Glossar zum Data Mining Unterthema: Data Mining - Checkliste Wann wird die Nachfrage nach Kartoffelchips besonders hoch sein? Soll ich dem Biobäcker einen Großkredit geben? Wie muß ich das Anschreiben formulieren, um den größten Rücklauf auf meinen Werbebrief zu bekommen? In den Unternehmen herrscht kein Mangel an bohrenden Fragen. Die Festplatten ächzen unter der Last der Daten, die eigentlich für die Beantwortung bereitstehen. Aber die Auswertung ist alles andere als einfach. Im Zeitalter von Barcodes, Electronic Cash und billigem Speicherplatz ist die Datenflut zu groß geworden, als daß das menschliche Auge die Zusammenhänge zwischen den Daten im Blick behalten könnte. Und so bleibt mancher Informationsschatz ungehoben: Entscheidungen trifft man selbst dann ad hoc, wenn relevantes Material im Prinzip verfügbar ist. Zu viele Daten, aber zu wenig Informationen - das muß nicht sein. Systeme zur Entscheidungsunterstützung bieten sich an, wenn die für die Entscheidung relevanten Faktoren präzise zu fassen sind. Sie sind der Gegenstand eines größeren Prüfstands in einem der nächsten Hefte. Data Mining dagegen ist das Mittel der Wahl, wenn man eher im Dunkeln tappt. Was relevant ist, soll das Programm selbst herausfinden. Bis vor kurzem fand Data Mining vor allem in Forschungsprototypen auf Unix-Basis statt. Heute drängen immer mehr Datenbank-, Data-Warehouse- und Statistiksysteme mit Funktionen zum Data Mining auf den Markt. Wie sich unter Windows 95 nach Informationen graben läßt, sehen wir uns bei WizWhy, WizRule, Delta Miner, DataEngine, Neural Connection und Chaid an. Alle Systeme laufen auch mit Windows 3.1. Bei der Auswahl achteten wir darauf, daß es sich um eigenständige Programme handelt. Die SAS-Lösung zum Data Mining läuft beispielsweise nur im Verbund mit anderen Modulen aus dem SAS-Baukasten und ist daher hier nicht vertreten. Spürhund und Trüffelschwein file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 2 von 10 Data Mining bedeutet also, in umfangreichen, mit dem bloßen Auge wenig aussagekräftigen Datenbeständen nützliche Informationen ans Tageslicht zu bringen. Daß sich beispielsweise Kartoffelchips mal gut und mal schlecht verkaufen, ist wenig hilfreich für unternehmerische Entscheidungen. Daß sie aber immer dann gut gehen, wenn der Bierkonsum anzieht (crossselling), ist schon interessanter. Solche Regeln erlauben es, rechtzeitig Bestellungen aufzugeben und das cross-selling weiter anzuheizen. Eine Datenbankabfrage oder ein statistischer Test stellt aber noch kein Data Mining dar. Statt dessen sollen die Programme relativ selbständig Muster in den Daten aufspüren und den Anwender darauf hinweisen. Sie finden Abhängigkeiten und Abweichungen, stellen Klassifikationen auf und machen Vorhersagen. Die Abgrenzung von Data Mining zu Anwendungen aus anderen Bereichen ist jedoch schwierig, weil sehr unterschiedliche Methoden zum Einsatz kommen, besonders aus den Bereichen Statistik und maschinelles Lernen. Es finden sich Entscheidungsbäume, neuronale Netze, genetische Algorithmen, Visualisierungstechniken und vieles mehr. Die zu analysierenden Daten kommen üblicherweise über die ODBC-Schnittstelle aus Datenbanken oder werden importiert. Auch eine manuelle Eingabe in ein Datenblatt ist möglich, manchmal auch der Echtzeitimport von Prozeßdaten. Güldenes Glückauf? Anzeigen und Hochglanzprospekte zum Data Mining übermitteln eine frohe Botschaft: Nicht die Datenbank ist schlecht organisiert - es fehlt nur ein geeignetes Werkzeug zur Bergung der Schätze. Leider ist es nicht so einfach. Datenbanken, die von inkonsistenten Einträgen, Lücken oder Freitextfeldern mit relevanten Informationen strotzen, können auch mit den besten Werkzeugen nicht zu Goldgruben werden. Aus diesem Grund setzt man häufig auf eine Vereinheitlichung von Datenbanken in Data Warehouses und auf das Aufspüren von Fehlern (`Scrubbing´), bevor Data Mining zum Einsatz kommt. Aber auch dieses Vorgehen hilft nicht immer weiter. Prospekte und Handbücher verschweigen nämlich gerne, daß viele altbekannte Probleme, mit denen sich Statistiker seit Jahrzehnten plagen, auch fürs Data Mining gelten. Sobald man sich von der Untersuchung einer Datenbank (Stichprobe) Hinweise auf die Beschaffenheit einer größeren Menge (Grundgesamtheit) erhofft, ist statistisches Grundwissen gefragt - beispielsweise, wenn aus den Käufern in einer Filiale auf das Kaufverhalten an allen Standorten geschlossen werden soll. Für den Schluß von der Stichprobe auf die Grundgesamtheit geht man üblicherweise von Verteilungsannahmen wie der Normalverteilung aus. In Data-Mining-Kreisen wischt man dieses Thema gerne mit der Bemerkung vom Tisch, solche Verteilungsannahmen seien irreal. Andererseits schließt man häufig ohne Umschweife auf eine Grundgesamtheit - verzerrte oder falsche Ergebnisse sind die Folge. WizWhy 1.01, WizRule 2.01 WizWhy stammt von der israelischen Softwareschmiede WizSoft; es erzeugt Regeln aus Daten. Dabei geht es von einem Merkmal eines Datensatzes aus, das zu erklären ist, beispielsweise das Jahreseinkommen eines Tennisspielers. Hierbei interessiert vielleicht, wann die Einkünfte über zwei Millionen Mark liegen. WizWhy versucht dann, in den Daten Bedingungen zu finden, die mit einem hohen Einkommen in Zusammenhang gebracht werden können, etwa längere file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 3 von 10 Erholungspausen vor wichtigen Turnieren. Das Programm inspiziert natürlich ausschließlich die zur Verfügung stehenden (Zahlen-) Werte, ohne von der Bedeutung der Werte auch nur einen blassen Schimmer zu haben. Findet WizWhy typische Konstellationen der Daten, die mit einem hohen Jahreseinkommen einhergehen, so formuliert es eine Regel. Abhängig von der Art der Konstellation formuliert es sie etwa in der Form Wenn A und (nicht B und C) ..., dann X oder als einfachen algebraischen Ausdruck wie N + M = Y. Natürlich sind möglichst aussagekräftige Regeln von Interesse. Da WizWhy möglicherweise eine ganze Reihe von Zusammenhängen erkennt, bewertet es die gefundenen Regeln nach verschiedenen Kriterien: Regelwahrscheinlichkeit (Anteil der Fälle, die mit Wenn- und Dann-Teil der Regel übereinstimmen, an der Menge der Fälle, die mit dem WennTeil der Regel übereinstimmen), Irrtumswahrscheinlichkeit (Wahrscheinlichkeit, daß der Zusammenhang zufällig zustandegekommen ist) und Anzahl der Datensätze, in denen dieser Zusammenhang vorkommt. Bei diesen Kriterien lassen sich vor der Regelerzeugung Grenzwerte einstellen, um Minimalanforderungen für Regeln festzulegen. Wenn Regeln die Anforderungen erfüllen, lassen sich schließlich einzelne von ihnen manuell oder programmgestützt auswählen. Diese können bei einem neuen Datensatz Vorhersagen liefern, etwa über das erwartete künftige Jahreseinkommen unseres beispielhaften Tennisspielers oder über potentielle Spitzenverdiener in einer Datei mit Nachwuchsspielern. Bestehende Datenbanken lassen sich dabei leicht einbinden, da der Wenn-Teil einer Regel auch in der Standard-Abfragesprache SQL (Structured Query Language) ausgegeben werden kann. WizRule sucht Abweichler, hier bei Telefonnummern. Der gleiche Algorithmus, der bei WizWhy Regeln identifiziert, kann auch zum Aufdecken von auffälligen Unregelmäßigkeiten dienen, die ein Hinweis auf fehlerhafte Einträge sind. WizRule ist für eine solche Überprüfung von Datenbanken (Database Auditing) ausgelegt. Mit einem Doppelklick auf die abweichlerischen Daten kann man die Unregelmäßigkeit visuell inspizieren und entscheiden, ob es sich tatsächlich um einen Fehler handelt. Die Einstellung von Minimalanforderungen erfolgt wie bei WizWhy. Das Vorgehen von WizWhy und WizRule ist plausibel und nachvollziehbar. Regeln lassen sich meist leicht verstehen. Dagegen ist es nicht immer leicht, in der Menge der aufgespürten Regeln die wirklich aussagekräftigen zu entdecken. Eine grafische Darstellung alternativ zu der bloßen Auflistung von Regeln wäre hier hilfreich, fehlt aber bei beiden Produkten. Meist hilft es bei der Suche nach wirklich neuen und interessanten Zusammenhängen auch nicht, die Kriterien zur Regelbewertung zu ändern. Sucht man beispielsweise Regeln mit niedriger Irrtumswahrscheinlichkeit, findet man oft längst Bekanntes oder Triviales. Mehrere Testläufe mit veränderten Parametern und ein aufmerksames Studium der erzeugten Regeln sind notwendig, um bei komplexen Datensätzen stabile und aussagekräftige Zusammenhänge zu finden. Delta Miner Light 2.0 Delta Miner bietet eine Art Rundfahrt zu den interessantesten Daten eines Unternehmens. Im Gegensatz zu den anderen Systemen sieht der Anwender dabei keine Regeln, Cluster oder file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 4 von 10 Signifikanzangaben. Statt dessen führt der Weg über Grafiken oder Tabellen, die den Zusammenhängen Schritt für Schritt auf den Grund gehen: vom Einbruch beim Jahresumsatz des Fahrradproduzenten über die besonderen Verluste mit Mountain-Bikes bis zur speziell ostdeutschen Absatzschwäche in diesem Sektor. DeltaMiner: übersichtliche Rundreise durch Unternehmensdaten Der Datentourist darf sich auf eigene Faust durch einen mehrdimensionalen Datenraum bewegen. Alternativ dazu kann er sich eines Lotsen bedienen, um zu interessanten Punkten des Datenraums zu gelangen. Das Ergebnis dieses `datengetriebenen´ Verfahrens liegt übersichtlich in einem Analysebaum vor. Die wesentlichen Stationen der Rundfahrt lassen sich auch als Report summarisch zusammenstellen. Auf diese Weise erkennt man, wie groß der Beitrag jeder betriebswirtschaftlichen Größe (Vertreter, Regionen, Produkte und so weiter) zum Gewinn oder Verlust ist. Wer weniger Interesse an einer Rundreise durch den Datenraum hat, kann sich interessante Muster (wie `65 % aller City-Bike-Käufer sind Frauen´) automatisch auffinden lassen. Delta Miner besticht besonders dadurch, daß es Routinevorgänge automatisiert und selbst Analysevorschläge erzeugt. Dadurch lassen sich Faktoren für Gewinn und Verlust in Unternehmen anschaulich darstellen. Neben dem Einzelplatzsystem ist übrigens auch eine ClientServer-Version verfügbar. DataEngine 2.01 Die `Datenmaschine´ der Aachener Firma MIT umfaßt ein ganzes Bündel von Verfahren für die Datenanalyse. Das Wichtigste in Kurzform: Das Basismodul bietet verschiedene Typen von Grafiken, einfache statistische Verfahren und Methoden der Signalverarbeitung wie die FastFourier-Transformation sowie eine grafische Programmiersprache. Das Modul für `Fuzzy Clustering´ ermöglicht Clusteranalysen, bei denen sich Objekte in Klassen einteilen lassen. Ein anderes Modul für regelbasierte Fuzzy-Systeme stellt Verfahren zur Regelung technischer Prozesse (Fuzzy Control) als auch zum Aufbau von Expertensystemen mit unscharfen Regeln bereit, die sich für Diagnose- und Überwachungsaufgaben eignen. Mit Data Mining hat dies allerdings weniger zu tun. Den Bereich der neuronalen Netze erschließt ein weiteres Modul für die Datenanalyse. Jedes Modul stellt einen eigenen Editor zur Verfügung. Eine grafische Makrosprache erleichtert das regelmäßige Arbeiten mit DataEngine; sie zeichnet Verarbeitungsschritte auf und macht sie editierbar. Komplexe Verfahren laufen anschließend automatisch ab; außerdem lassen sich mit ihr eigene Verfahren programmieren. Ein Satz von Beispielanalysen, die in dieser Makrosprache dokumentiert sind, liegt bei. Ein schneller Einstieg in das komplexe Programm gelingt, wenn man ein solches Beispiel an eine eigene Fragestellung anpaßt. Die mit DataEngine erzeugten Werkzeuge lassen sich mit Hilfe einer separat erhältlichen Bibliothek in andere Anwendungen einbinden. Schließlich ist noch eine Funktionsbibliothek im Programm, die vor allem der Bearbeitung meßtechnischer Aufgaben mit Fuzzy Logic und neuronalen Netzen dient. file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 5 von 10 Im Zentrum der Arbeit mit DataEngine steht die Bildung von sogenannten Modellen, die Datenmengen klassifizieren oder Prozesse online auswerten oder regeln. Dabei kann das mächtige Methodenarsenal (beispielsweise neuronale Netze oder Fuzzy-Techniken) beliebig kombiniert werden. Auch wenn mitgelieferte Beispiele das Erstellen solcher anspruchsvollen Anwendungen erleichtern, dürfte die Datenmaschine doch eher eine Sache für Spezialisten sein. Eine OnlineHilfe ist leider erst ab der Version 2.1 erhältlich, die voraussichtlich im Mai erscheint. DataEngine-Demos stehen unter http://www.mitgmbh.de zum Download bereit. Dort sind Anwendungen aus den Bereichen Prognose, Risikomanagement, Kreditwürdigkeitsbeurteilung, Qualitätskontrolle und Prozeßanalyse beschrieben. Neural Connection 1.0 Der Statistik-Veteran SPSS bietet als Ergänzung zu seinem beliebten Programm gleichen Namens auch Neural Connection zur Datenanalyse an. Das System läßt sich direkt aus dem Base-Modul von SPSS heraus aufrufen oder selbständig starten. Damit stehen dem Anwender neben zusätzlichen Statistiktools auch drei Verfahren aus dem Bereich der neuronalen Netze zur Verfügung. Wer als Kind gerne mit Lego oder Fischertechnik gespielt hat, wird Neural Connection lieben. Bis auf wenige Einschränkungen kann man tun und lassen, was man will. Das hat Vorteile und Nachteile, bei Neural Connection genauso wie beim Baukasten. Einerseits läßt sich vom Handwagen bis zur Rennsemmel mit allen Schikanen prinzipiell alles bauen, andererseits hat man auch alle Möglichkeiten, völligen Unsinn zu konstruieren. Zum profitablen Einsatz dieses Systems sollte man sowohl den Bereich gut kennen, aus dem die Daten stammen, als auch Erfahrung im Umgang mit neuronalen Methoden haben. Zunächst zu den Bausteinen. Die leicht bedienbare grafische Oberfläche von Neural Connection hilft, eine Strategie festzulegen, mit der die Daten zu analysieren sind. Um die Strategie zu präzisieren, reiht man Werkzeuge aneinander, die aus vier Kategorien stammen: Input, Output, Analyse (Modellierung und Vorhersage) und Filter. Jede Strategie muß mit einem Input-Werkzeug beginnen; leider muß es dann auch bei diesem einen bleiben. Dabei füllt man eine Datentabelle durch Copy&Paste oder durch Importieren von Dateien. Nach der Analyse muß mindestens ein Output-Werkzeug folgen. Zur Auswahl stehen Textübersichten, Grafiken, Zeitreihendarstellungen und ein Simulationswerkzeug (`Was wäre wenn?´), das grafisch anzeigt, wie sich eine abhängige Variable verhält, wenn sich der Wert einer unabhängigen Variablen ändert. Der eigentlichen Datenanalyse dienen drei Werkzeuge auf der Basis unterschiedlicher Netztypen (Kohonen- und Multi-Layer-Netze sowie Netze mit Radial-Basis-Funktion der Neuronen) und drei Werkzeuge mit statistischen Methoden (Closest Class Means, Regression und Principal Component). Diese Verfahren lassen sich wie auch die Filter beliebig zwischen Input und Output anordnen und wiederholen. Zum Trainieren der neuronalen Netze bildet man Teilmengen der Daten (Trainingsmengen). Zeitaufwand und Trainingserfolg hängen von der Struktur der Daten und der Größe der Trainingsmengen ab. Wem es an Orientierung mangelt, der darf den `NetAgent´ konsultieren. Er stellt Fragen zur aktuellen Aufgabe und entwirft einen ersten Vorschlag für eine Lösungsstrategie. Der NetAgent arbeitet wahlweise im Anfänger- oder im Fortgeschrittenenmodus. file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 6 von 10 Leider darf die Analyse nicht durch rückwärts gerichtete Schleifen laufen. Vorwärts gerichtete Netze dürften allerdings für die Datenanalyse ausreichen. Hat man für häufig wiederkehrende Aufgabentypen eine fruchtbare Einstellung der Parameter gefunden, so läßt sich die gesamte Analysestrategie speichern. Mit Hilfe einer Skriptsprache lassen sich zudem die Werkzeuge für bestimmte Anwendungen dauerhaft anpassen. Insgesamt muß bei der Anwendung dieses sehr flexiblen Systems die Aufgabenstellung für die Datenanalyse klar sein, um sinnvolle Analysestrategien erstellen zu können. Anwender sollten sich nicht nur im Bereich der Statistik auskennen, sondern auch Wissen über Struktur und Funktionsweise von neuronalen Netzen mitbringen. Der NetAgent erleichtert nur die ersten Schritte mit dem System. Seine Standardeinstellungen sind allerdings nicht ausreichend, um optimale Lösungen zu finden. SPSS Chaid 6.01 Wie sieht eigentlich das typische Profil von Menschen mit hohem Herzinfarktrisiko oder hoher Spendenbereitschaft aus? Wen Fragen dieser Art plagen, der ist ein potentieller Anwender von Chaid (Chisquard Automatic Interaction Detector) aus dem Hause SPSS, das genau wie Neural Connection auch alleine lauffähig ist. Der Ansatz von Chaid ist eng mit den aus vielen Bereichen bekannten Entscheidungsbäumen verwandt. Chaid erklärt das Verhalten von abhängigen Variablen, indem es die Daten in Gruppen einteilt (segmentiert). Im Beispiel Herzinfarkt verwendet man etwa eine Datenbank, in der Patienten mit und ohne Herzinfarkt anhand vieler Details wie Zigarettenkonsum, Gewicht, Alter und so weiter beschrieben sind. Diese Details stellen die unabhängigen Variablen dar, das Herzinfarktrisiko die abhängige. Chaid verwendet zur Segmentierung jeweils die Variablen, die den größten Beitrag zur Erklärung der abhängigen Variablen erbringen, hier also zur Wahrscheinlichkeit eines Herzinfarkts. Eine Segmentierung anhand der Variable `Zigarettenkonsum´ ist etwa angemessen, sofern laut Datenbank deutlich mehr Raucher als Nichtraucher einen Herzinfarkt erleiden. Dieses Vorgehen wiederholt sich nun in der Gruppe der Raucher und führt immer dann zu einer neuen Segmentierung, wenn eine Teilgruppe zu erkennen ist, deren Herzinfarktrisiko signifikant höher ist. Das Verfahren endet dann, wenn alle unabhängigen Variablen eingesetzt wurden, wenn eine weitere Segmentierung keinen Erklärungsvorteil mehr bringt oder wenn die vorab eingestellte Minimalgröße pro Segment erreicht ist. Alternativ zum automatischen Segmentieren durch das System kann der Anwender eigene Gruppen in der Datenbank bilden. Ein Baum stellt das Ergebnis der Analyse zusammenfassend grafisch dar. Ihm läßt sich die Rangfolge der unabhängigen Variablen entnehmen, die einen Beitrag zur Erklärung der abhängigen leisten. Im Gegensatz zu anderen gruppenbildenden Verfahren wie der Clusteranalyse soll es mit Chaid auch möglich sein, das Ergebnis der Segmentierung zur Vorhersage der abhängigen Variable in anderen Datensätzen zu nutzen - das Handbuch schweigt allerdings zum genauen Vorgehen. SPSS-Anwender fühlen sich bei Chaid schnell heimisch, denn die Benutzerführung folgt dem Stil der anderen SPSS-Module, beispielsweise bei der Deklarierung der Variablen. Auch das automatische Protokollieren aller unternommenen Schritte hat Chaid übernommen. Die Analyse setzt nicht auf einer externen Datenbank auf, sondern auf den in das System geladenen Daten. Beim Datenimport hat der Benutzer eine eher karge Auswahl: Lediglich ASCII- oder SPSSformatierte Dateien lassen sich importieren. file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 7 von 10 Fazit Leistungsfähige Werkzeuge zur Datenauswertung dürften in Zukunft an Bedeutung gewinnen. Dabei ist Data Mining neben OLAP (Online Analytical Processing) und klassischer Statistik nur eine von mehreren Optionen. Bei der Suche nach einem Werkzeug sollte man sich zunächst über den Anwendungsschwerpunkt klar werden: Geht es um die Analyse von Zusammenhängen, Abweichungen, um das Aufstellen von Klassifikationen oder um Vorhersagen? Auch die Frage, ob der Anwender von Hypothesen ausgeht oder ob das Verfahren datengeleitet solche Auswertungen selbständig vornehmen soll, hilft bei der Auswahl. Im ersten Fall sind eher statistische Verfahren angesprochen, im zweiten Fall Programme zum Data Mining. Hier lassen sich Paketlösungen, die mehrere verschiedene Data-Mining-Methoden vereinigen (DataEngine, DeltaMiner und NeuralConnection), von Systemen unterscheiden, die auf eine Methode setzen (WizWhy, WizRule und Chaid). DataEngine deckt alle wesentlichen Funktionen des Data Mining ab und geht auch über den Bereich hinaus, wendet sich aber besonders an Programmierer. DeltaEngine stellt vor allem für betriebswirtschaftliche Anwendungen ein transparentes und trotzdem leistungsfähiges Instrument dar. Neural Connection ist ein Werkzeug für Kenner, bei dem sich neben verschiedenen Typen von neuronalen Netzen auch klassische statistische Verfahren für das Data Mining einsetzen lassen. WizWhy und WizRule bieten auch demjenigen, der sich nur gelegentlich in die Datenflut begibt, eine gut verständliche Hilfe bei der Suche nach Regeln beziehungsweise Unregelmäßigkeiten. Ebenfalls ohne große Vorkenntnisse kommt man mit Chaid zurecht, wenn es um die Klassifikation von Daten geht, etwa um verschiedene Typen von Käufern.(ts) Kasten 1 Knowledge Discovery: Mehr als Mining Data Mining und Knowledge Discovery (Wissensentdekkung) werden häufig synonym verwendet. Tatsächlich bezeichnet Knowledge Discovery den gesamten Entdeckungsprozeß von der Formulierung einer Frage bis zur Interpretation der Ergebnisse. Dagegen sucht Data Mining nur nach auffälligen Mustern in den Daten. Wenn also Data Mining der Arbeit eines Goldwäschers entspricht, dann reicht Knowledge Discovery von der Auswahl eines Claims über die Suche nach der richtigen Goldgräberausrüstung bis hin zum Bewerten der gefundenen Nuggets. Benutzer eines Data-Mining-Systems müssen ihre Aufträge oft noch in einem Methodenchinesich formulieren und werden dafür mit Antworten wie `Alle schwangeren Patienten sind weiblich.´ belohnt. Knowledge Discovery erlaubt dagegen unmittelbar verständliche Fragen wie `Welche Faktoren beeinflussen den Behandlungserfolg?´ und vermeidet irrelevante Ergebnisse durch entsprechende Filter. In Deutschland finden Forschungen zum Knowledge Discovery beispielsweise am Bayerischen Forschungszentrum für Wissensbasierte Systeme in Erlangen statt. Kasten 2 Glossar zum Data Mining file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 8 von 10 Clusteranalyse: Klasse statistischer Verfahren, die beliebige Objekte aufgrund von Ähnlichkeiten in Gruppen (`Cluster´) einteilen. Database Auditing: Aufspüren und Beseitigen von Inkonsistenzen, fehlenden oder doppelten Werten, die oft durch falsche Eingaben oder durch das Zusammenlegen mehrerer Datenbanken entstanden sind. Database Marketing: zielgerichtetes Marketing auf der Grundlage von Informationen über die Adressaten. Dabei analysiert man Daten über Kunden und erstellt Profile einzelner Kundengruppen mit dem Ziel, ihr Verhalten vorherzusagen. Entscheidungsbaum: ein Graph in Baumform, mit dem sich Objekte (etwa Kunden) anhand ihrer Merkmale (etwa ihres Kaufverhaltens) klassifizieren lassen. Beginnend mit der Wurzel ist zur Klassifikation eines Objektes an jeder Abzweigung eine Entscheidung zu fällen, beispielsweise ob Kunde X auch Zigaretten kauft. Ein Blatt des Baumes gibt schließlich die Klasse des Objekts an. Jeder Weg durch den Baum von der Wurzel bis zum Blatt kann als WennDann-Regel mit komplexem Wenn-Teil aufgefaßt werden. Entscheidungsbäume klassifizieren Objekte schneller als neuronale Netze. Sie setzen allerdings bestimmte Datentypen voraus: Kontinuierliche Wertebereiche müssen vorab in Intervalle eingeteilt werden, wodurch sich eine wenig aussagekräftige Klassifikation ergeben kann, wenn die Grenzen der Intervalle ohne Wissen über die Bedeutung der Werte gezogen sind. Das bekannteste Verfahren zum Erstellen von Entscheidungsbäumen heißt ID3. Fuzzy-Techniken: Die Fuzzy-Theorie geht auf die Arbeiten von Lotfi A. Zadeh aus dem Jahre 1965 zurück. Die Theorie nimmt eine Verallgemeinerung sowohl der klassischen Mengenlehre als auch der zweiwertigen Logik vor, indem sie `unscharfe´ Beziehungen erlaubt. Eine bekannte Anwendung ist die Regelungstechnik (Fuzzy Control). Neu ist dagegen ihre Nutzung für die wissensbasierte Datenanalyse, die auf unscharfen Regeln beruht. Genetische Algorithmen: Lernverfahren, die auf den Prinzipien der Evolutionstheorie beruhen. Dazu wird eine Startmenge von Objekten nach einem vorgegebenen Kriterium bewertet (`Fitness´). Objekte, die am besten abschneiden, vervielfacht man in leicht veränderter Form, bewertet anschließend wiederum und fährt dann in gleicher Weise fort. Man wendet also die evolutionären Prinzipien Mutation und Selektion so lange an, bis ein Abbruchkriterium erreicht ist. Neuro-Fuzzy-Systeme: Mit solchen Systemen wird versucht, die Vorteile von neuronalen Netzen und Fuzzy-Systemen gemeinsam zu erreichen, ohne ihre Nachteile zu erben. Dabei kann etwa ein neuronales Netz die Zugehörigkeit zu einer Fuzzy-Menge erlernen, oder Struktur und Gewichtungen eines neuronales Netzes werden über ein Fuzzy-System optimiert. Neuronale Netze: Gruppe von Verfahren der Informationsverarbeitung, die in Anlehnung an Prinzipien biologischer neuronaler Netze arbeiten. Die Verfahren operieren mit relativ einfachen Verarbeitungseinheiten (`Neuronen´), die in großer Zahl parallel arbeiten und sich gegenseitig aktivieren. Die wichtigsten Anwendungsgebiete dieses Teilbereichs der Künstlichen Intelligenz sind maschinelles Sehen, Sprachverarbeitung, Bewegungssteuerung und Lernen. OLAP (Online Analytical Processing): siehe den vorangehenden Artikel über Data Warehouses. Regel: Eine Regel der Form `Wenn A, dann B´ drückt den Zusammenhang zwischen dem file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 9 von 10 Auftreten von A (etwa einem hohen Bierverbrauch) und dem Auftreten von B (beispielsweise dem Chipskonsum) aus. Die Konfidenz gibt die Stärke des beobachteten Zusammenhangs an (z. B. `in 40% aller Fälle ...´). Neben der Beschreibung vorliegender Daten können sie auch zur Vorhersage von Ereignissen eingesetzt werden. Kasten 3 Data Mining - Checkliste Programm WizWhy 1.01, DataEngine 2.01 WizRule 2.01 Delta Miner 2.0 32-Bit-Applikation + + + Hersteller MineSoft, London MIT, Aachen Bissantz Küppers & C Erlangen Vertrieb wird gesucht MIT, Aachen MIS,Darmstadt freierTelefonsupport + + + Systemvoraussetzungen 486, 8 MByte RAM 486, 16 MByte RAM 486, 16 MByte RAM Import ASCII, Excel, ODBC ASCII, Excel, ODBC ASCII, Excel, ODBC, andere Export ASCII, ODBC ASCII, ODBC ODBC, DBase, Excel auf relationale Datenbanken anwendbar + - + Database Marketing, Direktmarketing Database Marketing, Controlling, Marktfors Anwendungsschwerpunkte (WizWhy), Prognose, Analyse technischer Database Marketing Database Prozesse Auditing (WizRule) Visualisierung - beliebig konfigurierbare 2Dund 3D- Grafiken Navigationsbaum, graf Drill-down, Balkengra Records/Zeilen max. unbegrenzt unbegrenzt unbegrenzt Variablen/Spalten max. unbegrenzt unbegrenzt unbegrenzt Data-Mining-Methoden Fuzzy Logic, neuronale Netze (Multilayer Perceptron, Regelinduktion Kohonen, Fuzzy Kohonen), Fuzzy Clusterverfahren, Signalverarbeitungsfunktionen automatisierte OLAPFunktionen, Clusteran automatische Verteilungsunterschied statistische Verfahren Analyse von Zusammenhängen + + + Analyse von Abweichungen - + + Klassifizierungen - + + Vorhersagen + (WizWhy) + + file://G:\HTML\97\03\294\ART.HTM 07.08.2000 Report : Data Mining Seite 10 von 10 statistische Bewertung der + Ergebnisse + + (deskriptiv) statistische Methoden Korrelations-, Regressionsanalyse, deskriptive Statistik Clusteranalyse, eigene Heuristiken + kontextsensitive Hilfe + - Erweiterbarkeit - Integration mit anderen grafische Makrosprache durch Produkten der Delta-S eigene Funktionen erweiterbar Reihe von MIS Kontextsensitive Hilfe + - + Demoversion erhältlich + + + Preis in DM 6325 (WizWhy), 1552,50 (WizRule) 6900 ab 4830 (light), 21735 Server) Hochschulpreis 632,50 (WizWhy), 155,25 (WizRule) 3450 auf Anfrage Studentenpreis - 1138 (Lehrlizenz), 115 (eingeschränkt) - file://G:\HTML\97\03\294\ART.HTM 07.08.2000