Lotsen los! Data Mining

Werbung
Report : Data Mining
Seite 1 von 10
Dr. Dietmar Janetzko, Kathleen Steinhöfel
Lotsen los!
Data Mining: Verborgene Zusammenhänge in Datenbanken
aufspüren
Die Stasi hatte das gleiche Problem, das die Bank Ihres Vertrauens immer noch hat: Die
Datenflut schwappt immer höher, aber man weiß einfach nicht, wo die interessanten
Informationen liegen. Wer mit gängigen Abfragesprachen das Wesentliche herausfischen
will, muß schon vorher wissen, wonach er sucht. Data Mining ist anders: Es lotst uns zu
nützlichen Antworten, bevor uns die passenden Fragen einfallen, und fördert aus den
Tiefen des Datenmeeres Überraschendes zutage.
Unterthema: Knowledge Discovery: Mehr als Mining
Unterthema: Glossar zum Data Mining
Unterthema: Data Mining - Checkliste
Wann wird die Nachfrage nach Kartoffelchips besonders hoch sein? Soll ich dem Biobäcker einen
Großkredit geben? Wie muß ich das Anschreiben formulieren, um den größten Rücklauf auf
meinen Werbebrief zu bekommen? In den Unternehmen herrscht kein Mangel an bohrenden
Fragen. Die Festplatten ächzen unter der Last der Daten, die eigentlich für die Beantwortung
bereitstehen. Aber die Auswertung ist alles andere als einfach. Im Zeitalter von Barcodes,
Electronic Cash und billigem Speicherplatz ist die Datenflut zu groß geworden, als daß das
menschliche Auge die Zusammenhänge zwischen den Daten im Blick behalten könnte. Und so
bleibt mancher Informationsschatz ungehoben: Entscheidungen trifft man selbst dann ad hoc,
wenn relevantes Material im Prinzip verfügbar ist.
Zu viele Daten, aber zu wenig Informationen - das muß nicht sein. Systeme zur
Entscheidungsunterstützung bieten sich an, wenn die für die Entscheidung relevanten Faktoren
präzise zu fassen sind. Sie sind der Gegenstand eines größeren Prüfstands in einem der nächsten
Hefte. Data Mining dagegen ist das Mittel der Wahl, wenn man eher im Dunkeln tappt. Was
relevant ist, soll das Programm selbst herausfinden.
Bis vor kurzem fand Data Mining vor allem in Forschungsprototypen auf Unix-Basis statt. Heute
drängen immer mehr Datenbank-, Data-Warehouse- und Statistiksysteme mit Funktionen zum
Data Mining auf den Markt. Wie sich unter Windows 95 nach Informationen graben läßt, sehen
wir uns bei WizWhy, WizRule, Delta Miner, DataEngine, Neural Connection und Chaid an. Alle
Systeme laufen auch mit Windows 3.1. Bei der Auswahl achteten wir darauf, daß es sich um
eigenständige Programme handelt. Die SAS-Lösung zum Data Mining läuft beispielsweise nur im
Verbund mit anderen Modulen aus dem SAS-Baukasten und ist daher hier nicht vertreten.
Spürhund und Trüffelschwein
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 2 von 10
Data Mining bedeutet also, in umfangreichen, mit dem bloßen Auge wenig aussagekräftigen
Datenbeständen nützliche Informationen ans Tageslicht zu bringen. Daß sich beispielsweise
Kartoffelchips mal gut und mal schlecht verkaufen, ist wenig hilfreich für unternehmerische
Entscheidungen. Daß sie aber immer dann gut gehen, wenn der Bierkonsum anzieht (crossselling), ist schon interessanter. Solche Regeln erlauben es, rechtzeitig Bestellungen aufzugeben
und das cross-selling weiter anzuheizen.
Eine Datenbankabfrage oder ein statistischer Test stellt aber noch kein Data Mining dar. Statt
dessen sollen die Programme relativ selbständig Muster in den Daten aufspüren und den
Anwender darauf hinweisen. Sie finden Abhängigkeiten und Abweichungen, stellen
Klassifikationen auf und machen Vorhersagen.
Die Abgrenzung von Data Mining zu Anwendungen aus anderen Bereichen ist jedoch schwierig,
weil sehr unterschiedliche Methoden zum Einsatz kommen, besonders aus den Bereichen Statistik
und maschinelles Lernen. Es finden sich Entscheidungsbäume, neuronale Netze, genetische
Algorithmen, Visualisierungstechniken und vieles mehr.
Die zu analysierenden Daten kommen üblicherweise über die ODBC-Schnittstelle aus
Datenbanken oder werden importiert. Auch eine manuelle Eingabe in ein Datenblatt ist möglich,
manchmal auch der Echtzeitimport von Prozeßdaten.
Güldenes Glückauf?
Anzeigen und Hochglanzprospekte zum Data Mining übermitteln eine frohe Botschaft: Nicht die
Datenbank ist schlecht organisiert - es fehlt nur ein geeignetes Werkzeug zur Bergung der
Schätze. Leider ist es nicht so einfach. Datenbanken, die von inkonsistenten Einträgen, Lücken
oder Freitextfeldern mit relevanten Informationen strotzen, können auch mit den besten
Werkzeugen nicht zu Goldgruben werden. Aus diesem Grund setzt man häufig auf eine
Vereinheitlichung von Datenbanken in Data Warehouses und auf das Aufspüren von Fehlern
(`Scrubbing´), bevor Data Mining zum Einsatz kommt.
Aber auch dieses Vorgehen hilft nicht immer weiter. Prospekte und Handbücher verschweigen
nämlich gerne, daß viele altbekannte Probleme, mit denen sich Statistiker seit Jahrzehnten plagen,
auch fürs Data Mining gelten. Sobald man sich von der Untersuchung einer Datenbank
(Stichprobe) Hinweise auf die Beschaffenheit einer größeren Menge (Grundgesamtheit) erhofft,
ist statistisches Grundwissen gefragt - beispielsweise, wenn aus den Käufern in einer Filiale auf
das Kaufverhalten an allen Standorten geschlossen werden soll.
Für den Schluß von der Stichprobe auf die Grundgesamtheit geht man üblicherweise von
Verteilungsannahmen wie der Normalverteilung aus. In Data-Mining-Kreisen wischt man dieses
Thema gerne mit der Bemerkung vom Tisch, solche Verteilungsannahmen seien irreal.
Andererseits schließt man häufig ohne Umschweife auf eine Grundgesamtheit - verzerrte oder
falsche Ergebnisse sind die Folge.
WizWhy 1.01, WizRule 2.01
WizWhy stammt von der israelischen Softwareschmiede WizSoft; es erzeugt Regeln aus Daten.
Dabei geht es von einem Merkmal eines Datensatzes aus, das zu erklären ist, beispielsweise das
Jahreseinkommen eines Tennisspielers. Hierbei interessiert vielleicht, wann die Einkünfte über
zwei Millionen Mark liegen. WizWhy versucht dann, in den Daten Bedingungen zu finden, die
mit einem hohen Einkommen in Zusammenhang gebracht werden können, etwa längere
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 3 von 10
Erholungspausen vor wichtigen Turnieren. Das Programm inspiziert natürlich ausschließlich die
zur Verfügung stehenden (Zahlen-) Werte, ohne von der Bedeutung der Werte auch nur einen
blassen Schimmer zu haben.
Findet WizWhy typische Konstellationen der Daten, die mit einem hohen Jahreseinkommen
einhergehen, so formuliert es eine Regel. Abhängig von der Art der Konstellation formuliert es sie
etwa in der Form Wenn A und (nicht B und C) ..., dann X oder als einfachen algebraischen
Ausdruck wie N + M = Y. Natürlich sind möglichst aussagekräftige Regeln von Interesse.
Da WizWhy möglicherweise eine ganze Reihe von Zusammenhängen erkennt, bewertet es die
gefundenen Regeln nach verschiedenen Kriterien: Regelwahrscheinlichkeit (Anteil der Fälle, die
mit Wenn- und Dann-Teil der Regel übereinstimmen, an der Menge der Fälle, die mit dem WennTeil der Regel übereinstimmen), Irrtumswahrscheinlichkeit (Wahrscheinlichkeit, daß der
Zusammenhang zufällig zustandegekommen ist) und Anzahl der Datensätze, in denen dieser
Zusammenhang vorkommt. Bei diesen Kriterien lassen sich vor der Regelerzeugung Grenzwerte
einstellen, um Minimalanforderungen für Regeln festzulegen. Wenn Regeln die Anforderungen
erfüllen, lassen sich schließlich einzelne von ihnen manuell oder programmgestützt auswählen.
Diese können bei einem neuen Datensatz Vorhersagen liefern, etwa über das erwartete künftige
Jahreseinkommen unseres beispielhaften Tennisspielers oder über potentielle Spitzenverdiener in
einer Datei mit Nachwuchsspielern. Bestehende Datenbanken lassen sich dabei leicht einbinden,
da der Wenn-Teil einer Regel auch in der Standard-Abfragesprache SQL (Structured Query
Language) ausgegeben werden kann.
WizRule sucht Abweichler, hier bei Telefonnummern.
Der gleiche Algorithmus, der bei WizWhy Regeln identifiziert, kann auch zum Aufdecken von
auffälligen Unregelmäßigkeiten dienen, die ein Hinweis auf fehlerhafte Einträge sind. WizRule ist
für eine solche Überprüfung von Datenbanken (Database Auditing) ausgelegt. Mit einem
Doppelklick auf die abweichlerischen Daten kann man die Unregelmäßigkeit visuell inspizieren
und entscheiden, ob es sich tatsächlich um einen Fehler handelt. Die Einstellung von
Minimalanforderungen erfolgt wie bei WizWhy.
Das Vorgehen von WizWhy und WizRule ist plausibel und nachvollziehbar. Regeln lassen sich
meist leicht verstehen. Dagegen ist es nicht immer leicht, in der Menge der aufgespürten Regeln
die wirklich aussagekräftigen zu entdecken. Eine grafische Darstellung alternativ zu der bloßen
Auflistung von Regeln wäre hier hilfreich, fehlt aber bei beiden Produkten.
Meist hilft es bei der Suche nach wirklich neuen und interessanten Zusammenhängen auch nicht,
die Kriterien zur Regelbewertung zu ändern. Sucht man beispielsweise Regeln mit niedriger
Irrtumswahrscheinlichkeit, findet man oft längst Bekanntes oder Triviales. Mehrere Testläufe mit
veränderten Parametern und ein aufmerksames Studium der erzeugten Regeln sind notwendig, um
bei komplexen Datensätzen stabile und aussagekräftige Zusammenhänge zu finden.
Delta Miner Light 2.0
Delta Miner bietet eine Art Rundfahrt zu den interessantesten Daten eines Unternehmens. Im
Gegensatz zu den anderen Systemen sieht der Anwender dabei keine Regeln, Cluster oder
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 4 von 10
Signifikanzangaben. Statt dessen führt der Weg über Grafiken oder Tabellen, die den
Zusammenhängen Schritt für Schritt auf den Grund gehen: vom Einbruch beim Jahresumsatz des
Fahrradproduzenten über die besonderen Verluste mit Mountain-Bikes bis zur speziell
ostdeutschen Absatzschwäche in diesem Sektor.
DeltaMiner: übersichtliche Rundreise durch Unternehmensdaten
Der Datentourist darf sich auf eigene Faust durch einen mehrdimensionalen Datenraum bewegen.
Alternativ dazu kann er sich eines Lotsen bedienen, um zu interessanten Punkten des Datenraums
zu gelangen. Das Ergebnis dieses `datengetriebenen´ Verfahrens liegt übersichtlich in einem
Analysebaum vor. Die wesentlichen Stationen der Rundfahrt lassen sich auch als Report
summarisch zusammenstellen. Auf diese Weise erkennt man, wie groß der Beitrag jeder
betriebswirtschaftlichen Größe (Vertreter, Regionen, Produkte und so weiter) zum Gewinn oder
Verlust ist. Wer weniger Interesse an einer Rundreise durch den Datenraum hat, kann sich
interessante Muster (wie `65 % aller City-Bike-Käufer sind Frauen´) automatisch auffinden
lassen.
Delta Miner besticht besonders dadurch, daß es Routinevorgänge automatisiert und selbst
Analysevorschläge erzeugt. Dadurch lassen sich Faktoren für Gewinn und Verlust in
Unternehmen anschaulich darstellen. Neben dem Einzelplatzsystem ist übrigens auch eine ClientServer-Version verfügbar.
DataEngine 2.01
Die `Datenmaschine´ der Aachener Firma MIT umfaßt ein ganzes Bündel von Verfahren für die
Datenanalyse. Das Wichtigste in Kurzform: Das Basismodul bietet verschiedene Typen von
Grafiken, einfache statistische Verfahren und Methoden der Signalverarbeitung wie die FastFourier-Transformation sowie eine grafische Programmiersprache. Das Modul für `Fuzzy
Clustering´ ermöglicht Clusteranalysen, bei denen sich Objekte in Klassen einteilen lassen. Ein
anderes Modul für regelbasierte Fuzzy-Systeme stellt Verfahren zur Regelung technischer
Prozesse (Fuzzy Control) als auch zum Aufbau von Expertensystemen mit unscharfen Regeln
bereit, die sich für Diagnose- und Überwachungsaufgaben eignen. Mit Data Mining hat dies
allerdings weniger zu tun. Den Bereich der neuronalen Netze erschließt ein weiteres Modul für
die Datenanalyse. Jedes Modul stellt einen eigenen Editor zur Verfügung.
Eine grafische Makrosprache erleichtert das regelmäßige Arbeiten mit DataEngine; sie zeichnet
Verarbeitungsschritte auf und macht sie editierbar. Komplexe Verfahren laufen anschließend
automatisch ab; außerdem lassen sich mit ihr eigene Verfahren programmieren. Ein Satz von
Beispielanalysen, die in dieser Makrosprache dokumentiert sind, liegt bei. Ein schneller Einstieg
in das komplexe Programm gelingt, wenn man ein solches Beispiel an eine eigene Fragestellung
anpaßt.
Die mit DataEngine erzeugten Werkzeuge lassen sich mit Hilfe einer separat erhältlichen
Bibliothek in andere Anwendungen einbinden. Schließlich ist noch eine Funktionsbibliothek im
Programm, die vor allem der Bearbeitung meßtechnischer Aufgaben mit Fuzzy Logic und
neuronalen Netzen dient.
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 5 von 10
Im Zentrum der Arbeit mit DataEngine steht die Bildung von sogenannten Modellen, die
Datenmengen klassifizieren oder Prozesse online auswerten oder regeln. Dabei kann das mächtige
Methodenarsenal (beispielsweise neuronale Netze oder Fuzzy-Techniken) beliebig kombiniert
werden. Auch wenn mitgelieferte Beispiele das Erstellen solcher anspruchsvollen Anwendungen
erleichtern, dürfte die Datenmaschine doch eher eine Sache für Spezialisten sein. Eine OnlineHilfe ist leider erst ab der Version 2.1 erhältlich, die voraussichtlich im Mai erscheint.
DataEngine-Demos stehen unter http://www.mitgmbh.de zum Download bereit. Dort sind
Anwendungen aus den Bereichen Prognose, Risikomanagement, Kreditwürdigkeitsbeurteilung,
Qualitätskontrolle und Prozeßanalyse beschrieben.
Neural Connection 1.0
Der Statistik-Veteran SPSS bietet als Ergänzung zu seinem beliebten Programm gleichen Namens
auch Neural Connection zur Datenanalyse an. Das System läßt sich direkt aus dem Base-Modul
von SPSS heraus aufrufen oder selbständig starten. Damit stehen dem Anwender neben
zusätzlichen Statistiktools auch drei Verfahren aus dem Bereich der neuronalen Netze zur
Verfügung.
Wer als Kind gerne mit Lego oder Fischertechnik gespielt hat, wird Neural Connection lieben. Bis
auf wenige Einschränkungen kann man tun und lassen, was man will. Das hat Vorteile und
Nachteile, bei Neural Connection genauso wie beim Baukasten. Einerseits läßt sich vom
Handwagen bis zur Rennsemmel mit allen Schikanen prinzipiell alles bauen, andererseits hat man
auch alle Möglichkeiten, völligen Unsinn zu konstruieren. Zum profitablen Einsatz dieses
Systems sollte man sowohl den Bereich gut kennen, aus dem die Daten stammen, als auch
Erfahrung im Umgang mit neuronalen Methoden haben.
Zunächst zu den Bausteinen. Die leicht bedienbare grafische Oberfläche von Neural Connection
hilft, eine Strategie festzulegen, mit der die Daten zu analysieren sind. Um die Strategie zu
präzisieren, reiht man Werkzeuge aneinander, die aus vier Kategorien stammen: Input, Output,
Analyse (Modellierung und Vorhersage) und Filter.
Jede Strategie muß mit einem Input-Werkzeug beginnen; leider muß es dann auch bei diesem
einen bleiben. Dabei füllt man eine Datentabelle durch Copy&Paste oder durch Importieren von
Dateien.
Nach der Analyse muß mindestens ein Output-Werkzeug folgen. Zur Auswahl stehen
Textübersichten, Grafiken, Zeitreihendarstellungen und ein Simulationswerkzeug (`Was wäre
wenn?´), das grafisch anzeigt, wie sich eine abhängige Variable verhält, wenn sich der Wert einer
unabhängigen Variablen ändert.
Der eigentlichen Datenanalyse dienen drei Werkzeuge auf der Basis unterschiedlicher Netztypen
(Kohonen- und Multi-Layer-Netze sowie Netze mit Radial-Basis-Funktion der Neuronen) und
drei Werkzeuge mit statistischen Methoden (Closest Class Means, Regression und Principal
Component). Diese Verfahren lassen sich wie auch die Filter beliebig zwischen Input und Output
anordnen und wiederholen. Zum Trainieren der neuronalen Netze bildet man Teilmengen der
Daten (Trainingsmengen). Zeitaufwand und Trainingserfolg hängen von der Struktur der Daten
und der Größe der Trainingsmengen ab.
Wem es an Orientierung mangelt, der darf den `NetAgent´ konsultieren. Er stellt Fragen zur
aktuellen Aufgabe und entwirft einen ersten Vorschlag für eine Lösungsstrategie. Der NetAgent
arbeitet wahlweise im Anfänger- oder im Fortgeschrittenenmodus.
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 6 von 10
Leider darf die Analyse nicht durch rückwärts gerichtete Schleifen laufen. Vorwärts gerichtete
Netze dürften allerdings für die Datenanalyse ausreichen. Hat man für häufig wiederkehrende
Aufgabentypen eine fruchtbare Einstellung der Parameter gefunden, so läßt sich die gesamte
Analysestrategie speichern. Mit Hilfe einer Skriptsprache lassen sich zudem die Werkzeuge für
bestimmte Anwendungen dauerhaft anpassen.
Insgesamt muß bei der Anwendung dieses sehr flexiblen Systems die Aufgabenstellung für die
Datenanalyse klar sein, um sinnvolle Analysestrategien erstellen zu können. Anwender sollten
sich nicht nur im Bereich der Statistik auskennen, sondern auch Wissen über Struktur und
Funktionsweise von neuronalen Netzen mitbringen. Der NetAgent erleichtert nur die ersten
Schritte mit dem System. Seine Standardeinstellungen sind allerdings nicht ausreichend, um
optimale Lösungen zu finden.
SPSS Chaid 6.01
Wie sieht eigentlich das typische Profil von Menschen mit hohem Herzinfarktrisiko oder hoher
Spendenbereitschaft aus? Wen Fragen dieser Art plagen, der ist ein potentieller Anwender von
Chaid (Chisquard Automatic Interaction Detector) aus dem Hause SPSS, das genau wie Neural
Connection auch alleine lauffähig ist. Der Ansatz von Chaid ist eng mit den aus vielen Bereichen
bekannten Entscheidungsbäumen verwandt.
Chaid erklärt das Verhalten von abhängigen Variablen, indem es die Daten in Gruppen einteilt
(segmentiert). Im Beispiel Herzinfarkt verwendet man etwa eine Datenbank, in der Patienten mit
und ohne Herzinfarkt anhand vieler Details wie Zigarettenkonsum, Gewicht, Alter und so weiter
beschrieben sind. Diese Details stellen die unabhängigen Variablen dar, das Herzinfarktrisiko die
abhängige.
Chaid verwendet zur Segmentierung jeweils die Variablen, die den größten Beitrag zur Erklärung
der abhängigen Variablen erbringen, hier also zur Wahrscheinlichkeit eines Herzinfarkts. Eine
Segmentierung anhand der Variable `Zigarettenkonsum´ ist etwa angemessen, sofern laut
Datenbank deutlich mehr Raucher als Nichtraucher einen Herzinfarkt erleiden.
Dieses Vorgehen wiederholt sich nun in der Gruppe der Raucher und führt immer dann zu einer
neuen Segmentierung, wenn eine Teilgruppe zu erkennen ist, deren Herzinfarktrisiko signifikant
höher ist. Das Verfahren endet dann, wenn alle unabhängigen Variablen eingesetzt wurden, wenn
eine weitere Segmentierung keinen Erklärungsvorteil mehr bringt oder wenn die vorab
eingestellte Minimalgröße pro Segment erreicht ist. Alternativ zum automatischen Segmentieren
durch das System kann der Anwender eigene Gruppen in der Datenbank bilden.
Ein Baum stellt das Ergebnis der Analyse zusammenfassend grafisch dar. Ihm läßt sich die
Rangfolge der unabhängigen Variablen entnehmen, die einen Beitrag zur Erklärung der
abhängigen leisten. Im Gegensatz zu anderen gruppenbildenden Verfahren wie der Clusteranalyse
soll es mit Chaid auch möglich sein, das Ergebnis der Segmentierung zur Vorhersage der
abhängigen Variable in anderen Datensätzen zu nutzen - das Handbuch schweigt allerdings zum
genauen Vorgehen.
SPSS-Anwender fühlen sich bei Chaid schnell heimisch, denn die Benutzerführung folgt dem Stil
der anderen SPSS-Module, beispielsweise bei der Deklarierung der Variablen. Auch das
automatische Protokollieren aller unternommenen Schritte hat Chaid übernommen. Die Analyse
setzt nicht auf einer externen Datenbank auf, sondern auf den in das System geladenen Daten.
Beim Datenimport hat der Benutzer eine eher karge Auswahl: Lediglich ASCII- oder SPSSformatierte Dateien lassen sich importieren.
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 7 von 10
Fazit
Leistungsfähige Werkzeuge zur Datenauswertung dürften in Zukunft an Bedeutung gewinnen.
Dabei ist Data Mining neben OLAP (Online Analytical Processing) und klassischer Statistik nur
eine von mehreren Optionen. Bei der Suche nach einem Werkzeug sollte man sich zunächst über
den Anwendungsschwerpunkt klar werden: Geht es um die Analyse von Zusammenhängen,
Abweichungen, um das Aufstellen von Klassifikationen oder um Vorhersagen? Auch die Frage,
ob der Anwender von Hypothesen ausgeht oder ob das Verfahren datengeleitet solche
Auswertungen selbständig vornehmen soll, hilft bei der Auswahl. Im ersten Fall sind eher
statistische Verfahren angesprochen, im zweiten Fall Programme zum Data Mining.
Hier lassen sich Paketlösungen, die mehrere verschiedene Data-Mining-Methoden vereinigen
(DataEngine, DeltaMiner und NeuralConnection), von Systemen unterscheiden, die auf eine
Methode setzen (WizWhy, WizRule und Chaid).
DataEngine deckt alle wesentlichen Funktionen des Data Mining ab und geht auch über den
Bereich hinaus, wendet sich aber besonders an Programmierer. DeltaEngine stellt vor allem für
betriebswirtschaftliche Anwendungen ein transparentes und trotzdem leistungsfähiges Instrument
dar. Neural Connection ist ein Werkzeug für Kenner, bei dem sich neben verschiedenen Typen
von neuronalen Netzen auch klassische statistische Verfahren für das Data Mining einsetzen
lassen.
WizWhy und WizRule bieten auch demjenigen, der sich nur gelegentlich in die Datenflut begibt,
eine gut verständliche Hilfe bei der Suche nach Regeln beziehungsweise Unregelmäßigkeiten.
Ebenfalls ohne große Vorkenntnisse kommt man mit Chaid zurecht, wenn es um die
Klassifikation von Daten geht, etwa um verschiedene Typen von Käufern.(ts)
Kasten 1
Knowledge Discovery: Mehr als Mining
Data Mining und Knowledge Discovery (Wissensentdekkung) werden häufig synonym
verwendet. Tatsächlich bezeichnet Knowledge Discovery den gesamten Entdeckungsprozeß von
der Formulierung einer Frage bis zur Interpretation der Ergebnisse. Dagegen sucht Data Mining
nur nach auffälligen Mustern in den Daten. Wenn also Data Mining der Arbeit eines
Goldwäschers entspricht, dann reicht Knowledge Discovery von der Auswahl eines Claims über
die Suche nach der richtigen Goldgräberausrüstung bis hin zum Bewerten der gefundenen
Nuggets.
Benutzer eines Data-Mining-Systems müssen ihre Aufträge oft noch in einem Methodenchinesich
formulieren und werden dafür mit Antworten wie `Alle schwangeren Patienten sind weiblich.´
belohnt. Knowledge Discovery erlaubt dagegen unmittelbar verständliche Fragen wie `Welche
Faktoren beeinflussen den Behandlungserfolg?´ und vermeidet irrelevante Ergebnisse durch
entsprechende Filter.
In Deutschland finden Forschungen zum Knowledge Discovery beispielsweise am Bayerischen
Forschungszentrum für Wissensbasierte Systeme in Erlangen statt.
Kasten 2
Glossar zum Data Mining
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 8 von 10
Clusteranalyse: Klasse statistischer Verfahren, die beliebige Objekte aufgrund von Ähnlichkeiten
in Gruppen (`Cluster´) einteilen.
Database Auditing: Aufspüren und Beseitigen von Inkonsistenzen, fehlenden oder doppelten
Werten, die oft durch falsche Eingaben oder durch das Zusammenlegen mehrerer Datenbanken
entstanden sind.
Database Marketing: zielgerichtetes Marketing auf der Grundlage von Informationen über die
Adressaten. Dabei analysiert man Daten über Kunden und erstellt Profile einzelner
Kundengruppen mit dem Ziel, ihr Verhalten vorherzusagen.
Entscheidungsbaum: ein Graph in Baumform, mit dem sich Objekte (etwa Kunden) anhand
ihrer Merkmale (etwa ihres Kaufverhaltens) klassifizieren lassen. Beginnend mit der Wurzel ist
zur Klassifikation eines Objektes an jeder Abzweigung eine Entscheidung zu fällen,
beispielsweise ob Kunde X auch Zigaretten kauft. Ein Blatt des Baumes gibt schließlich die
Klasse des Objekts an. Jeder Weg durch den Baum von der Wurzel bis zum Blatt kann als WennDann-Regel mit komplexem Wenn-Teil aufgefaßt werden.
Entscheidungsbäume klassifizieren Objekte schneller als neuronale Netze. Sie setzen allerdings
bestimmte Datentypen voraus: Kontinuierliche Wertebereiche müssen vorab in Intervalle
eingeteilt werden, wodurch sich eine wenig aussagekräftige Klassifikation ergeben kann, wenn die
Grenzen der Intervalle ohne Wissen über die Bedeutung der Werte gezogen sind. Das bekannteste
Verfahren zum Erstellen von Entscheidungsbäumen heißt ID3.
Fuzzy-Techniken: Die Fuzzy-Theorie geht auf die Arbeiten von Lotfi A. Zadeh aus dem Jahre
1965 zurück. Die Theorie nimmt eine Verallgemeinerung sowohl der klassischen Mengenlehre als
auch der zweiwertigen Logik vor, indem sie `unscharfe´ Beziehungen erlaubt. Eine bekannte
Anwendung ist die Regelungstechnik (Fuzzy Control). Neu ist dagegen ihre Nutzung für die
wissensbasierte Datenanalyse, die auf unscharfen Regeln beruht.
Genetische Algorithmen: Lernverfahren, die auf den Prinzipien der Evolutionstheorie beruhen.
Dazu wird eine Startmenge von Objekten nach einem vorgegebenen Kriterium bewertet
(`Fitness´). Objekte, die am besten abschneiden, vervielfacht man in leicht veränderter Form,
bewertet anschließend wiederum und fährt dann in gleicher Weise fort. Man wendet also die
evolutionären Prinzipien Mutation und Selektion so lange an, bis ein Abbruchkriterium erreicht
ist.
Neuro-Fuzzy-Systeme: Mit solchen Systemen wird versucht, die Vorteile von neuronalen Netzen
und Fuzzy-Systemen gemeinsam zu erreichen, ohne ihre Nachteile zu erben. Dabei kann etwa ein
neuronales Netz die Zugehörigkeit zu einer Fuzzy-Menge erlernen, oder Struktur und
Gewichtungen eines neuronales Netzes werden über ein Fuzzy-System optimiert.
Neuronale Netze: Gruppe von Verfahren der Informationsverarbeitung, die in Anlehnung an
Prinzipien biologischer neuronaler Netze arbeiten. Die Verfahren operieren mit relativ einfachen
Verarbeitungseinheiten (`Neuronen´), die in großer Zahl parallel arbeiten und sich gegenseitig
aktivieren. Die wichtigsten Anwendungsgebiete dieses Teilbereichs der Künstlichen Intelligenz
sind maschinelles Sehen, Sprachverarbeitung, Bewegungssteuerung und Lernen.
OLAP (Online Analytical Processing): siehe den vorangehenden Artikel über Data Warehouses.
Regel: Eine Regel der Form `Wenn A, dann B´ drückt den Zusammenhang zwischen dem
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 9 von 10
Auftreten von A (etwa einem hohen Bierverbrauch) und dem Auftreten von B (beispielsweise
dem Chipskonsum) aus. Die Konfidenz gibt die Stärke des beobachteten Zusammenhangs an (z.
B. `in 40% aller Fälle ...´). Neben der Beschreibung vorliegender Daten können sie auch zur
Vorhersage von Ereignissen eingesetzt werden.
Kasten 3
Data Mining - Checkliste
Programm
WizWhy 1.01,
DataEngine 2.01
WizRule 2.01
Delta Miner 2.0
32-Bit-Applikation
+
+
+
Hersteller
MineSoft,
London
MIT, Aachen
Bissantz Küppers & C
Erlangen
Vertrieb
wird gesucht
MIT, Aachen
MIS,Darmstadt
freierTelefonsupport
+
+
+
Systemvoraussetzungen
486, 8 MByte
RAM
486, 16 MByte RAM
486, 16 MByte RAM
Import
ASCII, Excel,
ODBC
ASCII, Excel, ODBC
ASCII, Excel, ODBC,
andere
Export
ASCII, ODBC
ASCII, ODBC
ODBC, DBase, Excel
auf relationale
Datenbanken anwendbar
+
-
+
Database
Marketing,
Direktmarketing Database Marketing,
Controlling, Marktfors
Anwendungsschwerpunkte (WizWhy),
Prognose, Analyse technischer
Database Marketing
Database
Prozesse
Auditing
(WizRule)
Visualisierung
-
beliebig konfigurierbare 2Dund 3D- Grafiken
Navigationsbaum, graf
Drill-down, Balkengra
Records/Zeilen max.
unbegrenzt
unbegrenzt
unbegrenzt
Variablen/Spalten max.
unbegrenzt
unbegrenzt
unbegrenzt
Data-Mining-Methoden
Fuzzy Logic, neuronale Netze
(Multilayer Perceptron,
Regelinduktion Kohonen, Fuzzy Kohonen),
Fuzzy Clusterverfahren,
Signalverarbeitungsfunktionen
automatisierte OLAPFunktionen, Clusteran
automatische
Verteilungsunterschied
statistische Verfahren
Analyse von
Zusammenhängen
+
+
+
Analyse von
Abweichungen
-
+
+
Klassifizierungen
-
+
+
Vorhersagen
+ (WizWhy)
+
+
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Report : Data Mining
Seite 10 von 10
statistische Bewertung der
+
Ergebnisse
+
+ (deskriptiv)
statistische Methoden
Korrelations-,
Regressionsanalyse,
deskriptive Statistik
Clusteranalyse, eigene
Heuristiken
+
kontextsensitive Hilfe
+
-
Erweiterbarkeit
-
Integration mit anderen
grafische Makrosprache durch
Produkten der Delta-S
eigene Funktionen erweiterbar
Reihe von MIS
Kontextsensitive Hilfe
+
-
+
Demoversion erhältlich
+
+
+
Preis in DM
6325
(WizWhy),
1552,50
(WizRule)
6900
ab 4830 (light), 21735
Server)
Hochschulpreis
632,50
(WizWhy),
155,25
(WizRule)
3450
auf Anfrage
Studentenpreis
-
1138 (Lehrlizenz), 115
(eingeschränkt)
-
file://G:\HTML\97\03\294\ART.HTM
07.08.2000
Herunterladen