Data Mining-Systeme

Werbung
FAKULTÄT FÜR INFORMATIK
DER TECHNISCHEN UNIVERSITÄT MÜNCHEN
Lehrstuhl Datenbanksysteme, Wissensbasen
Univ.-Prof. Rudolf Bayer, Ph.D.,
Priv.-Doz. Dr. habil. Günther Specht
Hauptseminar im SS 2000
Data Mining - Knowledge Discovery in Databases
Vortrag
Data Mining-Systeme
Referent: Josef Kraus
Betreuerin: Dr. Angelika Reiser
Vortragsdatum: 20.07.2000
Zusammenfassung
Auf
dem
schnell
unterschiedlicher
wachsenden
Produkte
in
Data
ganz
Mining-Markt
gibt
verschiedenen
es
eine
Preiskategorien.
Vielzahl
Diese
unterscheiden sich weniger in den Algorithmen, als in der Methodenauswahl für das
Data Mining, die sie dem Benutzer zur Verfügung stellen. Die Hersteller statten ihre
Produkte mit immer mehr Methoden und geeigneten Benutzeroberflächen aus.
Außerdem findet eine immer stärkere Verbindung mit der zugrundeliegenden
Datenbank statt. Der Autonomiegrad der Software hat deutlich zugenommen. Es ist
der Ansatz des integrierten Text- und Data Mining zu beobachten. Will man
kommerzielle Produkte persönlich testen, so stößt man auf Schwierigkeiten
geeignete Testversionen von den Herstellern zu bekommen.
2
Inhaltsverzeichnis
Seite
1
Einordnung des Themas........................................................................ 3
2
Data Mining-Markt und -Systeme im Überblick ................................... 3
2.1
Marktvolumen und Hersteller.................................................................... 3
2.2
Anforderungen.......................................................................................... 4
2.3
Aktueller Stand ......................................................................................... 5
2.4
Unterschiede ............................................................................................ 7
2.5
Verbesserungsmöglichkeiten ................................................................... 7
2.6
Trends und Ausblick................................................................................. 8
3
Data Mining-Systeme konkret ............................................................. 11
3.1
Schwierigkeiten mit Testversionen ......................................................... 11
3.2
Vorstellung zweier Systeme ................................................................... 11
3.2.1 DBMiner E2.0 ......................................................................................... 11
3.2.2 IBM Intelligent Miner for Text.................................................................. 16
Literaturverzeichnis ................................................................................ 18
3
1 Einordnung des Themas
In einer früheren Studie der Meta Group1 wird der Umsatz im Data Mining-Markt im
Jahr 2000 auf 8,4 Milliarden Dollar beziffert. Die Garnter Group prognostizierte für
das selbe Jahr, dass 50% der größten 1000 Unternehmen Data Mining-Techniken
einsetzen werden. Da ca. 80% unserer Informationen unstrukturiert vorliegen (z.B. in
Texten, Web-Dokumenten usw.) ist davon auszugehen, dass dieser Trend auch
weiterhin anhalten und der Markt stark wachsen wird. In den früheren Vorträgen
dieses Hauptseminars "Data Mining - Knowledge Discovery in Databases" wurden
grundlegende Begriffe, Techniken und Algorithmen für das Data Mining geklärt und
erläutert. Der Schwerpunkt lag dabei eindeutig auf der theoretischen Seite. Aber hat
sich bei diesen Vorträgen nicht jeder gefragt:
•= Funktioniert das überhaupt?
•= Wie sehen die entsprechenden Systeme aus?
•= Wie sehen die Ergebnisse aus, und sind diese überhaupt brauchbar?
•= ...
In diesem studentischen Abschlussvortrag soll nun versucht werden erste Antworten
auf diese Fragen zu geben. Hierzu sollen Data Mining-Systeme überblicksweise
betrachtet und auch konkret vorgestellt werden. Die Praxis steht dabei eindeutig im
Vordergrund.
2 Data Mining-Markt und -Systeme im Überblick
2.1 Marktvolumen und Hersteller
Es
gibt
schon
seit
vielen
Jahren
gute
Teillösungen
für
klassische
Gruppierungsverfahren der mathematischen Statistik, Clusteranalyse oder neuronale
Netzsoftware. Durch Schlagzeilen wie "The Data Gold Rush" oder "Data Mining
Dynamite" getrieben, nennen viele dieser Hersteller ihre Produkte nun "*Miner*". Wie
bereits erwähnt, ist der Data Mining-Markt ein schnell wachsender Bereich mit einem
1
Meta Group Inc. Data Mining: Trends, Technology, and Implementation Imperatives. Stamford, CT,
February 1997
4
schätzungsweise augenblicklichen Umsatzvolumen von 8,4 Milliarden Dollar. So
verwundert es auch nicht, dass über 100 Anbieter1 diesen Kuchen unter sich
aufteilen möchten. Meiner persönlichen Ansicht nach stehen wir aber erst am Anfang
dieses Prozesses. Schaut man auf die Internetseite der verschiedenen Hersteller, so
kann jeder in seiner Referenzliste ein großes bekanntes Unternehmen aufführen, das
im Data Mining-Bereich sein Produkt einsetzt. Es ist wohl aber davon auszugehen,
dass, wie in anderen Bereichen der Informationstechnologie schon gesehen, in
wenigen Jahren nur noch wenige Große übrigbleiben.2
Bei so vielen Anbietern ist es verständlich, dass es sowohl Lösungen für den Profi als
auch für den Laien gibt. Die Preisklasse für das Grundsystem erstreckt sich hierbei,
je nach Anforderungen von 0 DM bis 350.000 DM. Für ein größeres Projekt kann
man mit einigen Millionen DM rechnen3. Auf der anderen Seite können aber auch
dadurch Kosten in 10-facher Höhe eingespart werden4. In einem anderen Projekt
haben sich die Kosten bereits nach 180 Tagen amortisiert.5
2.2 Anforderungen
Data Mining-Werkzeuge sollen den Anwender beim gesamten KDD-Prozess
(Planungsphase,
Vorbereitungsphase,
Miningphase,
Auswertungsphase)
unterstützen. Hierzu gehören: Import/Export der Daten zwischen den Phasen,
Iterationen bei den Phasen, Unterstützung des Anwenders bei Fragen der
Methodenwahl, Präsentation der Ergebnisse.
Die Gartner Group hat im August 1995 einen Kriterienkatalog aufgestellt, um die
Leistungsfähigkeit von Data Mining-Software beurteilen zu können.
1
in [Goe1999], S.25-30 findet sich eine Übersicht von 43 Produkten mit Systemvoraussetzung und
implementierten Methoden
2
in [Web2000], S.90-94 finden sich börsennotierte Firmen mit Produkt und finanztechnischen
Kennzahlen
3
[Web2000], S.90: Die Gesundheitsorganisation des US-Verteidigungsministeriums erteilte dem
Unternehmen Business Objects einen Auftrag im Wert von über 11 Millionen Dollar.
4
[Web2000], S.90: Durch den Einsatz der Analysesoftware der Firma Business Objects gelang es
dem Militär, den Umschlag der Vorräte von 110 auf 30 Tage zu verkürzen; die so erzielten
Einsparungen betrugen das Zehnfache der Investition.
5
[Web2000], S.92: Beim US-Spediteur Schneider National hat sich die Investition in die Software der
Firma Cognos in 180 Tagen amortisiert.
5
Die vier Grundbestandteile sind:
•= Datenvisualisierung
•= Statistik
•= Entscheidungsregeln
•= Neuronale Netze
z. B. ist für die Klassifizierung ausschlaggebend, ob
•= umfangreiche Datenbestände aus verschiedenen Quellen verwendet werden
können
•= Datenvor- und -aufbereitung umfangreich und komfortabel sind
•= die Software selbständig Hypothesen ("bottom-up") generiert und die
Formulierung von Hypothesen (top-down) durch den Anwender unterstützt
wird
•= der Anwender bei der Ausgabe der Entscheidungsregeln, Modelle oder
Zahlen erhält
•= wie leicht die verwendeten Modelle mit neuen Informationen aktualisiert
werden können
•= der Zugang zu diesen Technologien einfach ist
2.3 Aktueller Stand1
Einen tabellarischen Überblick der einzelnen Data Mining-Systeme bezüglich
Produktstand,
Methoden,
Datenbankanbindung,
Systemvoraussetzungen,
Anwenderfreundlichkeit geben [Gen1999] und [Goe1999]. Zusammenfassen lassen
sich die Ergebnisse folgendermaßen: Bei praktisch allen untersuchten Systemen
handelt es sich um kommerzielle Produkte, die für Windows und/oder Unix verfügbar
sind.
Meist
handelt
es
sich
um
eine
Standalone-Architektur.
Bei
der
Datenbankanbindung ist auffällig, dass die meisten Produkte mit Ascii-Textfiles
1
Die Wissenschaftliche Hochschule für Unternehmensführung (WHU) in Koblenz hat mit der Firma
Roche Diagnostics eine Analyse (Bezug über http://www.whu-koblenz.de/wi/ für 590 DM)
marktgängiger Werkzeuge in der Preisklasse von 1200 DM - 350.000 DM durchgeführt. In dieser
Studie werden die Produkte nach den gängigen Softwarekriterien bewertet: Bedienerfreundlichkeit,
Funktionsumfang, Performance. Die Werkzeuge mussten zeigen, ob und wie sie den kompletten
KDD-Prozess
unterstützen.
Außerdem
wird
der
Zusammenhang
betriebswirtschaftlicher
Problemstellung und entsprechender Werkzeug- und Methodenwahl erörtert. Leider war es mir trotz
Versand über Fernleihe nicht möglich diese Studie zu bekommen. Eine Zusammenfassung hiervon
stellt aber [Gen1999] dar.
6
arbeiten. Systeme, die mit einer Datenbank arbeiten, können in der Regel sowohl
online als auch offline arbeiten. Die Frage online/offline ist vor allem in Bereichen
wichtig, in denen sich die Daten schnell ändern, wie etwa im Bereich Finanzmärkte.
Nur ca. ein Drittel kann mit einer Größe von über 1.000.000 Records umgehen.
Auffällig ist auch, dass viele nur eine Tabelle benutzen können. Die häufigsten
Aufgaben, die die Systeme bewältigen, sind die Vorhersage (z. B. Kreditwürdigkeit),
Regression, Klassifikation, Erstellung von Assoziationsregeln und die Visualisierung.
Zum Erreichen dieser Aufgaben werden hauptsächlich statistische Methoden und
Entscheidungsbäume herangezogen.
Eine der wichtigen Fragen bei Data Mining-Software ist, wie weit der Benutzer
Kenntnisse über die Methoden des verwendeten Data Mining Werkzeugs haben
muss. Dieses Wissen ist besonders bei der Auswahl und Steuerung der Methoden
sowie
bei
der
Interpretation
der
Ergebnisse
wichtig.
Hier
sind
natürlich
Statistikkenntnisse und Kenntnisse in dem Gebiet der künstlichen Intelligenz hilfreich.
Da aber immer mehr Benutzer ohne solche speziellen Kenntnisse Data Mining
einsetzten, bieten immer mehr Produkte brauchbare Methodenmischungen an, bei
denen der Anwender kaum noch eingreifen muss. Gut 50% der Systeme arbeiten
autonom vom Menschen. Für den Spezialisten bieten die meisten kommerziellen
Produkte dann die Möglichkeit über Optionen die gewünschten Parameter zu
verändern. Wegen des unterschiedlichen Anwenderwissens ist auch eine grafische
Aufbereitung wünschenswert. Da sich nicht jede Darstellungsform für die
Visualisierung jedes Zusammenhangs gleichgut eignet, werden Daten oft in
verschiedenen Varianten dargestellt, vorzugsweise in Kurven, Histogrammen und
Punktwolken. Reine Zahlenkolonnen tragen auf den ersten Blick wenig zum
Verständnis bei.
Bei den Beurteilungen über Data Mining-Software ist auffallend, dass sehr oft die
Ergebnisse der Analyse von Assoziationsregeln als Schwachstellen genannt werden.
Hier wird immer angeführt, dass auch viele triviale Regeln, wie etwa alle Frauen sind
weiblich (wie sollte man aber so etwas umgehen?1), oder auch ableitbare produziert
werden2. Das Problem an solchen Regeln ist nicht, dass sie keine neuen
1
Beim Data Mining kann nur nach statistisch signifikanten Mustern, nicht nach Inhalt gesucht werden.
Vorteil von solchen gefundenen Regeln: Für einen Außenstehenden sind diese Regeln teilweise nicht
trivial, so dass er durch solche produzierte Regeln einen schnellen Überblick in das Fachgebiet findet.
2
nach [Gen1999], S.114: Sind die Erlöse und variablen Kosten eines Produktes bekannt, ist der
Deckungsbeitrag eine redundante Größe. Wird eine Regel zwischen einem dieser Attribute und der
7
Informationen liefern, sondern im Gegenteil, dass es sogar schwieriger wird aus der
Vielzahl der produzierten Regeln die sinnvollen herauszufinden. Ein bekanntes
Beispiel, wo durch die Informationsflut das Wichtige verdeckt wird, sind die
Ergebnisse von Internetsuchmaschinen. Hier versucht man durch ein Ranking nach
prozentualer
Übereinstimmung
das
Wichtige
vom
weniger
Wichtigen
zu
unterscheiden.
2.4 Unterschiede
Die Data Mining-Produkte unterscheiden sich hauptsächlich in den Punkten:
•= Anzahl der vorhandenen Methoden
•= Parametrisierung für die Steuerung des Mining-Prozesses
•= Bedienbarkeit
•= Datenbankanbindung
Die zugrundeliegenden Algorithmen sind in der Regel identisch. In der Studie
[Goe1999], S. 21 wird aber berichtet, dass es durchaus einige Hersteller gibt, die aus
Wettbewerbsgründen ihre Techniken und Algorithmen nicht nennen wollen.
Eine frühere Einteilung1 der Systeme in Desktop-Tools (windows-basiert, keine
Beratung erforderlich, 2.000-20.000 DM), Toolboxes (Client/Server, mehrere
Methoden, 20.000-200.000 DM) sowie in Systeme für unternehmensweites Data
Mining (Client/Server, Multiprozessor, ab 200.000 DM) wird immer verschwommener.
2.5 Verbesserungsmöglichkeiten
Datenbankanbindung: Obwohl die Datenbereitstellung inklusiv der periodischen
Aktualisierung teilweise 80% des Gesamtaufwands beim Data Mining ausmacht, wird
diese Phase durch die Mining-Werkzeuge bisher ungenügend unterstützt. Die
Verbindung Datenbank/OLAP mit den Data Mining-Werkzeugen lässt teilweise noch
Wünsche offen. So kann z. B. teilweise nicht direkt online mit der Datenbank
gearbeitet werden, sondern muss erst zeitaufwendig exportiert/importiert werden.
Teilweise müssen die Daten auch komplett in den Hauptspeicher geladen werden,
wodurch natürlich schnell Speicherprobleme entstehen.
Zielgröße gefunden, wird meist eine weitere Regel zwischen der Zielgröße und dem anderen
redundanten Attribut erzeugt. Oder aber auch: Wenn sich die Regeln auf eine ganze Gruppe bezieht,
dann müssen nicht die Regeln für alle einzelnen Elemente der Gruppe geliefert werden.
1
E.Woods, E. Kyral: Ovum Evaluates: Data Mining, London, 1997
8
Integration verschiedener Techniken: Da es nicht "die eine Technik" beim Data
Mining gibt, sondern immer nur eine Technik für genau dieses Problem, ist es
wichtig, dass die Produkte mit mehreren Methoden ausgestattet werden, und nicht
nur mit einer.
Unterstützung für den Experten und den Anfänger: Bei einem konkreten Projekt
in der Wirtschaft werden meist externe KDD-Experten sowie Fachleute im jeweiligen
Wirtschaftsgebiet eingesetzt. Am Ende gibt es dann noch den Endbenutzer des
Systems. Für alle drei wäre es wünschenswert, wenn das selbe Produkt von allen
eingesetzt werden könnte, also sowohl funktional mächtig als auch intuitiv bedienbar
ist.
Softwarearchitektur: Es ist offensichtlich, dass sich niemals alle Aufgaben mit
einem festen Repertoire an Algorithmen und Methoden lösen lassen, selbst wenn der
Umfang ständig erweitert wird. Deshalb ist es wünschenswert, dass sich die
vorhandenen Methoden einfach modifizieren lassen, aber auch gänzlich neue
hinzugefügt werden können.
Behandlung von Datenveränderungen: In fast allen Anwendungen, so natürlich
auch
auf
dem
wichtigen
Gebiet
der
Geschäftswelt,
verändern
sich
die
Ausgangsdaten ständig. Die gewonnen Muster aus den Daten werden somit
möglicherweise ungültig und müssen komplett neu berechnet werden. Nicht zuletzt
wegen des hohen Aufwands wäre es wünschenswert, wenn inkrementelle Methoden
eingesetzt werden könnten, die die gefundenen Muster nur den neuen Daten
anpassen müssten.
Multimedia Daten: Nicht alle Daten liegen in Form von Zahlen vor. Viele
Informationen sind in unstrukturierten Texten vorhanden. Sehr vieles findet sich in
Bildern und Audio-/Videodaten. Die Muster in diesen Daten können mit den
Standardanalysemethoden nicht befriedigend entdeckt werden. Deshalb müssen die
Werkzeuge mit speziellen, oft auch fachspezifischen, Methoden und Algorithmen
ausgestattet werden.
(siehe Punkt Softwarearchitektur)
2.6 Trends und Ausblick
Im letzten Abschnitt wurden verschiedene Schwachstellen der heutigen Data MiningSysteme beschrieben. Wie innovativ der Markt ist, kann man daran ersehen, dass
diese Probleme schon in Angriff genommen werden. So ist festzustellen, dass sich
9
die verschiedenen Herstellerrichtungen immer mehr auf sich zu bewegen, um die
Datenbankanbindung zu verbessern. Hersteller aus der Richtung OLAP statten ihre
Produkte immer mehr mit Statistik und Data Mining-Techniken aus1. Produktanbieter,
die aus der Richtung Statistik kommen, setzten auf die Integration mit
OLAP/Datawarehouse-Konzepte. Dies ist auch wünschenswert, da wie gesagt, der
KDD-Prozess iterativ abläuft und eine enge Verbindung zwischen Datenbank und
Analysewerkzeug
bestehen
muss.
Die
Produkte
werden
immer
anwendungsfreundlicher (grafische Oberflächen) und zugleich mit immer mehr
Methoden ausgerüstet.
Es fällt auch der Trend zu integrierten Text- und Data Mining-Paketen auf. Die
bisherigen Betrachtungen gingen stillschweigend davon aus, dass die Daten
strukturiert vorliegen. Gerade das Internet mit seiner zunehmenden Bedeutung in der
Geschäftswelt trägt aber dazu bei, dass die Daten weniger strukturiert vorliegen. Dies
ist sicherlich auch ein Grund der dazu führt, dass das sogenannte Text Mining2
immer mehr an Bedeutung gewinnt. Unter Text Mining werden sämtliche Methoden
verstanden, mit denen unbekanntes Wissen aus großen Textsammlungen gewonnen
werden können. Die Ziele sind beim Text- und beim Data Mining identisch. Der
Hauptunterschied ist der unterschiedliche Strukturierungsgrad der Ausgangsdaten.
Durch das Zusammenwirken von Data- und Text Mining kann das verborgene
Wissen noch besser gefunden werden. So können etwa die Kundendaten mit
Beschwerdebriefen und Verkäufern gekoppelt und ausgewertet werden. Hieraus
lassen sich dann diverse Informationen sowohl über Verkäufer und Produkte als
auch über den Kunden ziehen.
Nur der Mensch kann die Daten sachgerecht und aufgabengemäß aufbereiten und
auswerten. Mit Hilfe der Computer und Algorithmen kann aber in großen
Informationsbeständen nach Auffälligem gesucht werden. Während des MiningProzesses muss der Mensch immer wieder manuelle Modifikationen machen und
steuernd eingreifen. Insgesamt ergibt sich ein iterativer Prozess. Es lässt sich aber
schon jetzt vorhersagen, dass der Mensch in absehbarer Zeit nicht ersetzt wird, da
der Prozess nur bedingt automatisierbar ist. Allerdings lässt sich gegenüber früheren
Data Mining-Werkzeugen feststellen, dass der Autonomiegrad der Software deutlich
zugenommen hat.
1
siehe MS-SQL Server 2000
2
bei [Gen1999] finden sich Verweise auf verschiedene Text Mining-Tools
10
Zusammenfassend lässt sich festhalten, dass es auf dem Gebiet Data Mining
durchaus noch Schwächen und Verbesserungsmöglichkeiten gibt. Dies soll aber
nicht die teilweise beachtenswerten Erfolge vergessen lassen, die bisher erzielt
wurden. Diese Erfolge, und die sich hieraus selbstentwickelnde Dynamik werden
wohl weiter zu neuen Anstrengungen auf dem Gebiet Data Mining führen und die
noch vorhandenen Schwächen bald teilweise verschwinden lassen.
11
3 Data Mining-Systeme konkret
3.1 Schwierigkeiten mit Testversionen
Nach dieser allgemeinen Einführung in den Data Mining-Markt mit seinen Systemen
sollen verschiedene Werkzeuge konkret vorgestellt werden. Die Vorarbeit für diesen
Vortrag war das Finden von geeigneten Produkten. Im Zeitalter von Internet sollte es
eigentlich kein Problem darstellen solche Produkte für Testzwecke zu bekommen.
Allerdings wurde ich schnell eines Besseren belehrt. Das Finden von Data Mining
Werkzeugen im Internet ist kein Problem. Schnell findet man auch bunte
Beispielsgrafiken für diese Software und klickt auf den berühmten Download-Button.
Hier aber ist oft schon Schluss. Es gibt nur eine Slideshow zum Herunterladen. Eine
Nachfrage beim Hersteller, ob man für Testzwecke eine auch nur irgendwie geartete
Testversion bekommen kann, wird oft mit folgenden Worten verneint: "Wir haben
keine Testversion von diesem Produkt, da dieses Produkt zu komplex ist. Wir würden
Ihnen aber gerne einen Berater schicken, der Ihnen die Software vorstellt." Hat man
aber das Glück eine lauffähige Testversion downloaden zu können, so kann einem
hier leicht passieren, dass die Testversion keine Dokumentation oder Hilfe enthält,
wobei die Software nicht selbsterklärend ist. Außerdem stellt man sehr schnell fest,
dass viele Produkte nur ganz bestimmte Methoden beinhalten, insbesondere der
nichtkommerzielle Bereich. Auch sind die Produkte natürlich nicht von der gleichen
Form, dass man hier diese Methode und dort diese Methode verwenden kann. Es
bedarf immer einer Einarbeitung. Nach einigen Enttäuschungen kann ich aber zwei
Produkte vorstellen, die mir gefallen haben.
3.2 Vorstellung zweier Systeme
Ich habe die folgenden zwei Systeme ausgewählt, da die beiden Testversionen einen
großen Funktionsumfang, eine gute Dokumentation und nur eine zeitliche Befristung
(90 bzw. 60 Tage) besitzen.
3.2.1 DBMiner E2.0
Der DBMiner Enterprise 2.0 für Windows NT kann unter http://www.dbminer.com als
90-Tage-Testversion (bzw. 200 Aufrufe) heruntergeladen werden. Es findet sich dort
auch
ein
brauchbares
Tutorial.
Ein
wenig
unschön
sind
die
hohen
12
Systemvoraussetzungen (Windows NT, OLAP von MS-SQL-Server 7.01, MS-Excel
2000) für dieses Produkt.
Fakten zum DBMiner E2.0
•= 3D Cube Explorer
•= OLAP Browser
•= Assoziationsregeln
•= Klassifizierung
•= Gruppierung (clustering)
•= data mining query language (DMQL)
•= Visualisierungstool
•= Grafische Benutzeroberfläche (GUI)
•= Kosten: $999.00 (U.S.) + Steuer
Screenshots (Auswahl aus http://db.cs.sfu.ca/DBMiner/snapshot.html)
3D Cube Explorer
1
eine kostenlose 120-Tage-Testversion kann von http://www.microsoft.com heruntergeladen werden
13
OLAP Browser
Assoziationsregeln
14
15
Klassifizierung
Gruppierung (clustering)
16
3.2.2 IBM Intelligent Miner for Text
Vom IBM Intelligent Miner for Text Version 2 Release 3 kann eine kostenlose 60
Tage
Testversion
unter
http://www-4.ibm.com/software/data/iminer/fortext/
angefordert werden. Auf den CD's finden sich Versionen für Windows NT, Sun
Solaris und AIX. An dieser Testversion fällt besonders angenehm auf, dass die
komplette Dokumentation (mehrere hundert Seiten!) mitgeliefert wird.
Fakten zum IBM Intelligent Miner for Text Version V2 R3
•= Text analysis tools1
-
Sprachidentifikation
-
Gruppierung (clustering)
-
Klassifizierung
-
Zusammenfassung
-
Begriffsextraktion
•= Full-text search engine
•= Web crawler tools
•= Web search solution
•= Systemvoraussetzungen
-
Windows NT Service Pack 3 oder
-
Sun Solaris V2.5.1 oder
-
OS/390 V2.4-2.6
•= Kosten (als Anhaltspunkt) $30,000.00 (U.S.) + Steuer, 1-Prozessorlizenz
Anwendungsbeispiel: (aus Dokumentation zu Zusammenfassungswerkzeug)
Der folgende Text2 in der Datei, summaryATT.html soll zusammengefasst werden:
<HTML>
<TITLE>AT&T opens India's first global network management centre</TITLE>
<BODY>
BANGALORE,
India, M2 PRESSWIRE via Individual Inc. : AT&T today launched India's
first Global Network Management Centre (GNMC) to meet the networking needs
of local companies and multinational corporations (MNCs) in India. AT&T
will provide advanced network solutions, as well as a range of sophisticated
communications services, to large Indian companies and domestic and foreign
MNCs country-wide.
<br>The GNMC will be located in Bangalore. The state-of-the-art facility
is connected to AT&T's other GNMCs in China, Singapore, the United
States and Europe. The facility uses the latest communications technology
to manage, maintain and operate customers' networks 24-hours-a-day, 365
days-a-year. "The Bangalore GNMC shows our commitment to providing local
1
nur für englischsprachige Texte, außer Sprachidentifikation
damit der Vergleich mit der erzeugten Zusammenfassung erleichtert wird, sind die in der
Zusammenfassung verwendeten Sätze unterstrichen
2
17
and global customers with world-wide network management capabilities,"
said Joydeep Bose, director, AT&T Managed Network Solutions, India.
"This facility is a significant technological investment and is the first-ever
of its kind in the country."
<br>The GNMC will be run by AT&T's Managed Network Solutions division,
which focuses on the communications needs of MNCs world-wide. AT&T
will also offer an extensive, flexible range of communications services
including network analysis and design, network integration and implementation,
and a complete suite of outsourced network operations management services.
AT&T Managed Network Solutions will provide world-class, product-independent
services for voice and data networking to help customers choose the best
technology and transmission facilities the market can offer. "More and
more companies are setting up or expanding their businesses in India,"
said Rakesh Bhasin, president, AT&T Managed Network Solutions, Asia/Pacific.
"In order to expand efficiently, they need communications networks they
can trust. AT&T can help save companies time, money and resources by
offering expert advice on installing and 'future proofing' a network, managing
it once it has been built, and making sure it provides consistent, high-quality,
seamless voice and data connections." AT&T Labs, AT&T's world-renowned
research and development facility, will provide on-site support for the
GNMC and bring customers the benefits of leading-edge software and equipment,
developed both in-house and by vendors, for network design and benchmarking
in a multi-vendor environment.
</BODY>
</HTML>
Durch den Befehl imzsum –b 2 –l 4 kann eine Zusammenfassung auf vier Sätze
erzeugt werden1:
E:\TextTools>imzsum -b 2 -l 4 e:\seminarDemo\ibm\summaryATT.html
IMZSUM - Text Summarization Version 2.3
<IMZ ID>e:\seminarDemo\ibm\summaryATT.html</IMZ ID>
<IMZ TITLE>AT&T opens India's first global network management centre</IMZ TI
TLE>
<IMZ CONTENT>
BANGALORE, India, M2 PRESSWIRE via Individual Inc. : AT&T today launched India
's first Global Network Management Centre (GNMC) to meet the networking needs of
local companies and multinational corporations (MNCs) in India.
AT&T Labs, AT&T 's world-renowned research and development facility, will provid
e on-site support for the GNMC and bring customers the benefits of leading-edge
software and equipment, developed both in-house and by vendors, for network desi
gn and benchmarking in a multi-vendor environment.
</IMZ CONTENT>
<!----->
weitere Anwendungsbeispiele finden sich unter:
http://www-4.ibm.com/software/data/iminer/fortext/tatools.html
1
Erklärung der Parameter: siehe Dokumentation zu IBM Intelligent Miner for Text
18
Literaturverzeichnis
[Gen1999]
P. Gentsch, J. Diercks: Ganzheitlich schürfen, iX, 11/1999, S.112-123
[Goe1999]
M. Goebel, L. Gruenwald: A survey of data mining and knowledge
discovery software tools, SIGKDD Explorations, June 1999, Vol 1, Issue
1, S.20-33
[Hös1996]
H.-P. Höschel: Erfolgreiche Suche im Data Warehouse, PC Magazin,
7/96
[Moe1997]
G. Moerkotte, T. Westmann: Schwarze Magie, iX, 8/1997, S.128-133
[Ste1999]
U. Steinecke: Kunde am Draht, iX, 11/1999, S.107-111
[Web2000] O. Weber: Goldgräberstimmung wie einst am Yukon, BÖRSE ONLINE,
20/2000, S.90-94
Internetseiten
•= zentrale Übersichtsseite
http://www.kdnuggets.com
•= Herstellerseiten
http://www.dbminer.com
http://www-4.ibm.com/software/data/iminer/fortext/
Herunterladen