FAKULTÄT FÜR INFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN Lehrstuhl Datenbanksysteme, Wissensbasen Univ.-Prof. Rudolf Bayer, Ph.D., Priv.-Doz. Dr. habil. Günther Specht Hauptseminar im SS 2000 Data Mining - Knowledge Discovery in Databases Vortrag Data Mining-Systeme Referent: Josef Kraus Betreuerin: Dr. Angelika Reiser Vortragsdatum: 20.07.2000 Zusammenfassung Auf dem schnell unterschiedlicher wachsenden Produkte in Data ganz Mining-Markt gibt verschiedenen es eine Preiskategorien. Vielzahl Diese unterscheiden sich weniger in den Algorithmen, als in der Methodenauswahl für das Data Mining, die sie dem Benutzer zur Verfügung stellen. Die Hersteller statten ihre Produkte mit immer mehr Methoden und geeigneten Benutzeroberflächen aus. Außerdem findet eine immer stärkere Verbindung mit der zugrundeliegenden Datenbank statt. Der Autonomiegrad der Software hat deutlich zugenommen. Es ist der Ansatz des integrierten Text- und Data Mining zu beobachten. Will man kommerzielle Produkte persönlich testen, so stößt man auf Schwierigkeiten geeignete Testversionen von den Herstellern zu bekommen. 2 Inhaltsverzeichnis Seite 1 Einordnung des Themas........................................................................ 3 2 Data Mining-Markt und -Systeme im Überblick ................................... 3 2.1 Marktvolumen und Hersteller.................................................................... 3 2.2 Anforderungen.......................................................................................... 4 2.3 Aktueller Stand ......................................................................................... 5 2.4 Unterschiede ............................................................................................ 7 2.5 Verbesserungsmöglichkeiten ................................................................... 7 2.6 Trends und Ausblick................................................................................. 8 3 Data Mining-Systeme konkret ............................................................. 11 3.1 Schwierigkeiten mit Testversionen ......................................................... 11 3.2 Vorstellung zweier Systeme ................................................................... 11 3.2.1 DBMiner E2.0 ......................................................................................... 11 3.2.2 IBM Intelligent Miner for Text.................................................................. 16 Literaturverzeichnis ................................................................................ 18 3 1 Einordnung des Themas In einer früheren Studie der Meta Group1 wird der Umsatz im Data Mining-Markt im Jahr 2000 auf 8,4 Milliarden Dollar beziffert. Die Garnter Group prognostizierte für das selbe Jahr, dass 50% der größten 1000 Unternehmen Data Mining-Techniken einsetzen werden. Da ca. 80% unserer Informationen unstrukturiert vorliegen (z.B. in Texten, Web-Dokumenten usw.) ist davon auszugehen, dass dieser Trend auch weiterhin anhalten und der Markt stark wachsen wird. In den früheren Vorträgen dieses Hauptseminars "Data Mining - Knowledge Discovery in Databases" wurden grundlegende Begriffe, Techniken und Algorithmen für das Data Mining geklärt und erläutert. Der Schwerpunkt lag dabei eindeutig auf der theoretischen Seite. Aber hat sich bei diesen Vorträgen nicht jeder gefragt: •= Funktioniert das überhaupt? •= Wie sehen die entsprechenden Systeme aus? •= Wie sehen die Ergebnisse aus, und sind diese überhaupt brauchbar? •= ... In diesem studentischen Abschlussvortrag soll nun versucht werden erste Antworten auf diese Fragen zu geben. Hierzu sollen Data Mining-Systeme überblicksweise betrachtet und auch konkret vorgestellt werden. Die Praxis steht dabei eindeutig im Vordergrund. 2 Data Mining-Markt und -Systeme im Überblick 2.1 Marktvolumen und Hersteller Es gibt schon seit vielen Jahren gute Teillösungen für klassische Gruppierungsverfahren der mathematischen Statistik, Clusteranalyse oder neuronale Netzsoftware. Durch Schlagzeilen wie "The Data Gold Rush" oder "Data Mining Dynamite" getrieben, nennen viele dieser Hersteller ihre Produkte nun "*Miner*". Wie bereits erwähnt, ist der Data Mining-Markt ein schnell wachsender Bereich mit einem 1 Meta Group Inc. Data Mining: Trends, Technology, and Implementation Imperatives. Stamford, CT, February 1997 4 schätzungsweise augenblicklichen Umsatzvolumen von 8,4 Milliarden Dollar. So verwundert es auch nicht, dass über 100 Anbieter1 diesen Kuchen unter sich aufteilen möchten. Meiner persönlichen Ansicht nach stehen wir aber erst am Anfang dieses Prozesses. Schaut man auf die Internetseite der verschiedenen Hersteller, so kann jeder in seiner Referenzliste ein großes bekanntes Unternehmen aufführen, das im Data Mining-Bereich sein Produkt einsetzt. Es ist wohl aber davon auszugehen, dass, wie in anderen Bereichen der Informationstechnologie schon gesehen, in wenigen Jahren nur noch wenige Große übrigbleiben.2 Bei so vielen Anbietern ist es verständlich, dass es sowohl Lösungen für den Profi als auch für den Laien gibt. Die Preisklasse für das Grundsystem erstreckt sich hierbei, je nach Anforderungen von 0 DM bis 350.000 DM. Für ein größeres Projekt kann man mit einigen Millionen DM rechnen3. Auf der anderen Seite können aber auch dadurch Kosten in 10-facher Höhe eingespart werden4. In einem anderen Projekt haben sich die Kosten bereits nach 180 Tagen amortisiert.5 2.2 Anforderungen Data Mining-Werkzeuge sollen den Anwender beim gesamten KDD-Prozess (Planungsphase, Vorbereitungsphase, Miningphase, Auswertungsphase) unterstützen. Hierzu gehören: Import/Export der Daten zwischen den Phasen, Iterationen bei den Phasen, Unterstützung des Anwenders bei Fragen der Methodenwahl, Präsentation der Ergebnisse. Die Gartner Group hat im August 1995 einen Kriterienkatalog aufgestellt, um die Leistungsfähigkeit von Data Mining-Software beurteilen zu können. 1 in [Goe1999], S.25-30 findet sich eine Übersicht von 43 Produkten mit Systemvoraussetzung und implementierten Methoden 2 in [Web2000], S.90-94 finden sich börsennotierte Firmen mit Produkt und finanztechnischen Kennzahlen 3 [Web2000], S.90: Die Gesundheitsorganisation des US-Verteidigungsministeriums erteilte dem Unternehmen Business Objects einen Auftrag im Wert von über 11 Millionen Dollar. 4 [Web2000], S.90: Durch den Einsatz der Analysesoftware der Firma Business Objects gelang es dem Militär, den Umschlag der Vorräte von 110 auf 30 Tage zu verkürzen; die so erzielten Einsparungen betrugen das Zehnfache der Investition. 5 [Web2000], S.92: Beim US-Spediteur Schneider National hat sich die Investition in die Software der Firma Cognos in 180 Tagen amortisiert. 5 Die vier Grundbestandteile sind: •= Datenvisualisierung •= Statistik •= Entscheidungsregeln •= Neuronale Netze z. B. ist für die Klassifizierung ausschlaggebend, ob •= umfangreiche Datenbestände aus verschiedenen Quellen verwendet werden können •= Datenvor- und -aufbereitung umfangreich und komfortabel sind •= die Software selbständig Hypothesen ("bottom-up") generiert und die Formulierung von Hypothesen (top-down) durch den Anwender unterstützt wird •= der Anwender bei der Ausgabe der Entscheidungsregeln, Modelle oder Zahlen erhält •= wie leicht die verwendeten Modelle mit neuen Informationen aktualisiert werden können •= der Zugang zu diesen Technologien einfach ist 2.3 Aktueller Stand1 Einen tabellarischen Überblick der einzelnen Data Mining-Systeme bezüglich Produktstand, Methoden, Datenbankanbindung, Systemvoraussetzungen, Anwenderfreundlichkeit geben [Gen1999] und [Goe1999]. Zusammenfassen lassen sich die Ergebnisse folgendermaßen: Bei praktisch allen untersuchten Systemen handelt es sich um kommerzielle Produkte, die für Windows und/oder Unix verfügbar sind. Meist handelt es sich um eine Standalone-Architektur. Bei der Datenbankanbindung ist auffällig, dass die meisten Produkte mit Ascii-Textfiles 1 Die Wissenschaftliche Hochschule für Unternehmensführung (WHU) in Koblenz hat mit der Firma Roche Diagnostics eine Analyse (Bezug über http://www.whu-koblenz.de/wi/ für 590 DM) marktgängiger Werkzeuge in der Preisklasse von 1200 DM - 350.000 DM durchgeführt. In dieser Studie werden die Produkte nach den gängigen Softwarekriterien bewertet: Bedienerfreundlichkeit, Funktionsumfang, Performance. Die Werkzeuge mussten zeigen, ob und wie sie den kompletten KDD-Prozess unterstützen. Außerdem wird der Zusammenhang betriebswirtschaftlicher Problemstellung und entsprechender Werkzeug- und Methodenwahl erörtert. Leider war es mir trotz Versand über Fernleihe nicht möglich diese Studie zu bekommen. Eine Zusammenfassung hiervon stellt aber [Gen1999] dar. 6 arbeiten. Systeme, die mit einer Datenbank arbeiten, können in der Regel sowohl online als auch offline arbeiten. Die Frage online/offline ist vor allem in Bereichen wichtig, in denen sich die Daten schnell ändern, wie etwa im Bereich Finanzmärkte. Nur ca. ein Drittel kann mit einer Größe von über 1.000.000 Records umgehen. Auffällig ist auch, dass viele nur eine Tabelle benutzen können. Die häufigsten Aufgaben, die die Systeme bewältigen, sind die Vorhersage (z. B. Kreditwürdigkeit), Regression, Klassifikation, Erstellung von Assoziationsregeln und die Visualisierung. Zum Erreichen dieser Aufgaben werden hauptsächlich statistische Methoden und Entscheidungsbäume herangezogen. Eine der wichtigen Fragen bei Data Mining-Software ist, wie weit der Benutzer Kenntnisse über die Methoden des verwendeten Data Mining Werkzeugs haben muss. Dieses Wissen ist besonders bei der Auswahl und Steuerung der Methoden sowie bei der Interpretation der Ergebnisse wichtig. Hier sind natürlich Statistikkenntnisse und Kenntnisse in dem Gebiet der künstlichen Intelligenz hilfreich. Da aber immer mehr Benutzer ohne solche speziellen Kenntnisse Data Mining einsetzten, bieten immer mehr Produkte brauchbare Methodenmischungen an, bei denen der Anwender kaum noch eingreifen muss. Gut 50% der Systeme arbeiten autonom vom Menschen. Für den Spezialisten bieten die meisten kommerziellen Produkte dann die Möglichkeit über Optionen die gewünschten Parameter zu verändern. Wegen des unterschiedlichen Anwenderwissens ist auch eine grafische Aufbereitung wünschenswert. Da sich nicht jede Darstellungsform für die Visualisierung jedes Zusammenhangs gleichgut eignet, werden Daten oft in verschiedenen Varianten dargestellt, vorzugsweise in Kurven, Histogrammen und Punktwolken. Reine Zahlenkolonnen tragen auf den ersten Blick wenig zum Verständnis bei. Bei den Beurteilungen über Data Mining-Software ist auffallend, dass sehr oft die Ergebnisse der Analyse von Assoziationsregeln als Schwachstellen genannt werden. Hier wird immer angeführt, dass auch viele triviale Regeln, wie etwa alle Frauen sind weiblich (wie sollte man aber so etwas umgehen?1), oder auch ableitbare produziert werden2. Das Problem an solchen Regeln ist nicht, dass sie keine neuen 1 Beim Data Mining kann nur nach statistisch signifikanten Mustern, nicht nach Inhalt gesucht werden. Vorteil von solchen gefundenen Regeln: Für einen Außenstehenden sind diese Regeln teilweise nicht trivial, so dass er durch solche produzierte Regeln einen schnellen Überblick in das Fachgebiet findet. 2 nach [Gen1999], S.114: Sind die Erlöse und variablen Kosten eines Produktes bekannt, ist der Deckungsbeitrag eine redundante Größe. Wird eine Regel zwischen einem dieser Attribute und der 7 Informationen liefern, sondern im Gegenteil, dass es sogar schwieriger wird aus der Vielzahl der produzierten Regeln die sinnvollen herauszufinden. Ein bekanntes Beispiel, wo durch die Informationsflut das Wichtige verdeckt wird, sind die Ergebnisse von Internetsuchmaschinen. Hier versucht man durch ein Ranking nach prozentualer Übereinstimmung das Wichtige vom weniger Wichtigen zu unterscheiden. 2.4 Unterschiede Die Data Mining-Produkte unterscheiden sich hauptsächlich in den Punkten: •= Anzahl der vorhandenen Methoden •= Parametrisierung für die Steuerung des Mining-Prozesses •= Bedienbarkeit •= Datenbankanbindung Die zugrundeliegenden Algorithmen sind in der Regel identisch. In der Studie [Goe1999], S. 21 wird aber berichtet, dass es durchaus einige Hersteller gibt, die aus Wettbewerbsgründen ihre Techniken und Algorithmen nicht nennen wollen. Eine frühere Einteilung1 der Systeme in Desktop-Tools (windows-basiert, keine Beratung erforderlich, 2.000-20.000 DM), Toolboxes (Client/Server, mehrere Methoden, 20.000-200.000 DM) sowie in Systeme für unternehmensweites Data Mining (Client/Server, Multiprozessor, ab 200.000 DM) wird immer verschwommener. 2.5 Verbesserungsmöglichkeiten Datenbankanbindung: Obwohl die Datenbereitstellung inklusiv der periodischen Aktualisierung teilweise 80% des Gesamtaufwands beim Data Mining ausmacht, wird diese Phase durch die Mining-Werkzeuge bisher ungenügend unterstützt. Die Verbindung Datenbank/OLAP mit den Data Mining-Werkzeugen lässt teilweise noch Wünsche offen. So kann z. B. teilweise nicht direkt online mit der Datenbank gearbeitet werden, sondern muss erst zeitaufwendig exportiert/importiert werden. Teilweise müssen die Daten auch komplett in den Hauptspeicher geladen werden, wodurch natürlich schnell Speicherprobleme entstehen. Zielgröße gefunden, wird meist eine weitere Regel zwischen der Zielgröße und dem anderen redundanten Attribut erzeugt. Oder aber auch: Wenn sich die Regeln auf eine ganze Gruppe bezieht, dann müssen nicht die Regeln für alle einzelnen Elemente der Gruppe geliefert werden. 1 E.Woods, E. Kyral: Ovum Evaluates: Data Mining, London, 1997 8 Integration verschiedener Techniken: Da es nicht "die eine Technik" beim Data Mining gibt, sondern immer nur eine Technik für genau dieses Problem, ist es wichtig, dass die Produkte mit mehreren Methoden ausgestattet werden, und nicht nur mit einer. Unterstützung für den Experten und den Anfänger: Bei einem konkreten Projekt in der Wirtschaft werden meist externe KDD-Experten sowie Fachleute im jeweiligen Wirtschaftsgebiet eingesetzt. Am Ende gibt es dann noch den Endbenutzer des Systems. Für alle drei wäre es wünschenswert, wenn das selbe Produkt von allen eingesetzt werden könnte, also sowohl funktional mächtig als auch intuitiv bedienbar ist. Softwarearchitektur: Es ist offensichtlich, dass sich niemals alle Aufgaben mit einem festen Repertoire an Algorithmen und Methoden lösen lassen, selbst wenn der Umfang ständig erweitert wird. Deshalb ist es wünschenswert, dass sich die vorhandenen Methoden einfach modifizieren lassen, aber auch gänzlich neue hinzugefügt werden können. Behandlung von Datenveränderungen: In fast allen Anwendungen, so natürlich auch auf dem wichtigen Gebiet der Geschäftswelt, verändern sich die Ausgangsdaten ständig. Die gewonnen Muster aus den Daten werden somit möglicherweise ungültig und müssen komplett neu berechnet werden. Nicht zuletzt wegen des hohen Aufwands wäre es wünschenswert, wenn inkrementelle Methoden eingesetzt werden könnten, die die gefundenen Muster nur den neuen Daten anpassen müssten. Multimedia Daten: Nicht alle Daten liegen in Form von Zahlen vor. Viele Informationen sind in unstrukturierten Texten vorhanden. Sehr vieles findet sich in Bildern und Audio-/Videodaten. Die Muster in diesen Daten können mit den Standardanalysemethoden nicht befriedigend entdeckt werden. Deshalb müssen die Werkzeuge mit speziellen, oft auch fachspezifischen, Methoden und Algorithmen ausgestattet werden. (siehe Punkt Softwarearchitektur) 2.6 Trends und Ausblick Im letzten Abschnitt wurden verschiedene Schwachstellen der heutigen Data MiningSysteme beschrieben. Wie innovativ der Markt ist, kann man daran ersehen, dass diese Probleme schon in Angriff genommen werden. So ist festzustellen, dass sich 9 die verschiedenen Herstellerrichtungen immer mehr auf sich zu bewegen, um die Datenbankanbindung zu verbessern. Hersteller aus der Richtung OLAP statten ihre Produkte immer mehr mit Statistik und Data Mining-Techniken aus1. Produktanbieter, die aus der Richtung Statistik kommen, setzten auf die Integration mit OLAP/Datawarehouse-Konzepte. Dies ist auch wünschenswert, da wie gesagt, der KDD-Prozess iterativ abläuft und eine enge Verbindung zwischen Datenbank und Analysewerkzeug bestehen muss. Die Produkte werden immer anwendungsfreundlicher (grafische Oberflächen) und zugleich mit immer mehr Methoden ausgerüstet. Es fällt auch der Trend zu integrierten Text- und Data Mining-Paketen auf. Die bisherigen Betrachtungen gingen stillschweigend davon aus, dass die Daten strukturiert vorliegen. Gerade das Internet mit seiner zunehmenden Bedeutung in der Geschäftswelt trägt aber dazu bei, dass die Daten weniger strukturiert vorliegen. Dies ist sicherlich auch ein Grund der dazu führt, dass das sogenannte Text Mining2 immer mehr an Bedeutung gewinnt. Unter Text Mining werden sämtliche Methoden verstanden, mit denen unbekanntes Wissen aus großen Textsammlungen gewonnen werden können. Die Ziele sind beim Text- und beim Data Mining identisch. Der Hauptunterschied ist der unterschiedliche Strukturierungsgrad der Ausgangsdaten. Durch das Zusammenwirken von Data- und Text Mining kann das verborgene Wissen noch besser gefunden werden. So können etwa die Kundendaten mit Beschwerdebriefen und Verkäufern gekoppelt und ausgewertet werden. Hieraus lassen sich dann diverse Informationen sowohl über Verkäufer und Produkte als auch über den Kunden ziehen. Nur der Mensch kann die Daten sachgerecht und aufgabengemäß aufbereiten und auswerten. Mit Hilfe der Computer und Algorithmen kann aber in großen Informationsbeständen nach Auffälligem gesucht werden. Während des MiningProzesses muss der Mensch immer wieder manuelle Modifikationen machen und steuernd eingreifen. Insgesamt ergibt sich ein iterativer Prozess. Es lässt sich aber schon jetzt vorhersagen, dass der Mensch in absehbarer Zeit nicht ersetzt wird, da der Prozess nur bedingt automatisierbar ist. Allerdings lässt sich gegenüber früheren Data Mining-Werkzeugen feststellen, dass der Autonomiegrad der Software deutlich zugenommen hat. 1 siehe MS-SQL Server 2000 2 bei [Gen1999] finden sich Verweise auf verschiedene Text Mining-Tools 10 Zusammenfassend lässt sich festhalten, dass es auf dem Gebiet Data Mining durchaus noch Schwächen und Verbesserungsmöglichkeiten gibt. Dies soll aber nicht die teilweise beachtenswerten Erfolge vergessen lassen, die bisher erzielt wurden. Diese Erfolge, und die sich hieraus selbstentwickelnde Dynamik werden wohl weiter zu neuen Anstrengungen auf dem Gebiet Data Mining führen und die noch vorhandenen Schwächen bald teilweise verschwinden lassen. 11 3 Data Mining-Systeme konkret 3.1 Schwierigkeiten mit Testversionen Nach dieser allgemeinen Einführung in den Data Mining-Markt mit seinen Systemen sollen verschiedene Werkzeuge konkret vorgestellt werden. Die Vorarbeit für diesen Vortrag war das Finden von geeigneten Produkten. Im Zeitalter von Internet sollte es eigentlich kein Problem darstellen solche Produkte für Testzwecke zu bekommen. Allerdings wurde ich schnell eines Besseren belehrt. Das Finden von Data Mining Werkzeugen im Internet ist kein Problem. Schnell findet man auch bunte Beispielsgrafiken für diese Software und klickt auf den berühmten Download-Button. Hier aber ist oft schon Schluss. Es gibt nur eine Slideshow zum Herunterladen. Eine Nachfrage beim Hersteller, ob man für Testzwecke eine auch nur irgendwie geartete Testversion bekommen kann, wird oft mit folgenden Worten verneint: "Wir haben keine Testversion von diesem Produkt, da dieses Produkt zu komplex ist. Wir würden Ihnen aber gerne einen Berater schicken, der Ihnen die Software vorstellt." Hat man aber das Glück eine lauffähige Testversion downloaden zu können, so kann einem hier leicht passieren, dass die Testversion keine Dokumentation oder Hilfe enthält, wobei die Software nicht selbsterklärend ist. Außerdem stellt man sehr schnell fest, dass viele Produkte nur ganz bestimmte Methoden beinhalten, insbesondere der nichtkommerzielle Bereich. Auch sind die Produkte natürlich nicht von der gleichen Form, dass man hier diese Methode und dort diese Methode verwenden kann. Es bedarf immer einer Einarbeitung. Nach einigen Enttäuschungen kann ich aber zwei Produkte vorstellen, die mir gefallen haben. 3.2 Vorstellung zweier Systeme Ich habe die folgenden zwei Systeme ausgewählt, da die beiden Testversionen einen großen Funktionsumfang, eine gute Dokumentation und nur eine zeitliche Befristung (90 bzw. 60 Tage) besitzen. 3.2.1 DBMiner E2.0 Der DBMiner Enterprise 2.0 für Windows NT kann unter http://www.dbminer.com als 90-Tage-Testversion (bzw. 200 Aufrufe) heruntergeladen werden. Es findet sich dort auch ein brauchbares Tutorial. Ein wenig unschön sind die hohen 12 Systemvoraussetzungen (Windows NT, OLAP von MS-SQL-Server 7.01, MS-Excel 2000) für dieses Produkt. Fakten zum DBMiner E2.0 •= 3D Cube Explorer •= OLAP Browser •= Assoziationsregeln •= Klassifizierung •= Gruppierung (clustering) •= data mining query language (DMQL) •= Visualisierungstool •= Grafische Benutzeroberfläche (GUI) •= Kosten: $999.00 (U.S.) + Steuer Screenshots (Auswahl aus http://db.cs.sfu.ca/DBMiner/snapshot.html) 3D Cube Explorer 1 eine kostenlose 120-Tage-Testversion kann von http://www.microsoft.com heruntergeladen werden 13 OLAP Browser Assoziationsregeln 14 15 Klassifizierung Gruppierung (clustering) 16 3.2.2 IBM Intelligent Miner for Text Vom IBM Intelligent Miner for Text Version 2 Release 3 kann eine kostenlose 60 Tage Testversion unter http://www-4.ibm.com/software/data/iminer/fortext/ angefordert werden. Auf den CD's finden sich Versionen für Windows NT, Sun Solaris und AIX. An dieser Testversion fällt besonders angenehm auf, dass die komplette Dokumentation (mehrere hundert Seiten!) mitgeliefert wird. Fakten zum IBM Intelligent Miner for Text Version V2 R3 •= Text analysis tools1 - Sprachidentifikation - Gruppierung (clustering) - Klassifizierung - Zusammenfassung - Begriffsextraktion •= Full-text search engine •= Web crawler tools •= Web search solution •= Systemvoraussetzungen - Windows NT Service Pack 3 oder - Sun Solaris V2.5.1 oder - OS/390 V2.4-2.6 •= Kosten (als Anhaltspunkt) $30,000.00 (U.S.) + Steuer, 1-Prozessorlizenz Anwendungsbeispiel: (aus Dokumentation zu Zusammenfassungswerkzeug) Der folgende Text2 in der Datei, summaryATT.html soll zusammengefasst werden: <HTML> <TITLE>AT&amp;T opens India's first global network management centre</TITLE> <BODY> BANGALORE, India, M2 PRESSWIRE via Individual Inc. : AT&amp;T today launched India's first Global Network Management Centre (GNMC) to meet the networking needs of local companies and multinational corporations (MNCs) in India. AT&amp;T will provide advanced network solutions, as well as a range of sophisticated communications services, to large Indian companies and domestic and foreign MNCs country-wide. <br>The GNMC will be located in Bangalore. The state-of-the-art facility is connected to AT&amp;T's other GNMCs in China, Singapore, the United States and Europe. The facility uses the latest communications technology to manage, maintain and operate customers' networks 24-hours-a-day, 365 days-a-year. "The Bangalore GNMC shows our commitment to providing local 1 nur für englischsprachige Texte, außer Sprachidentifikation damit der Vergleich mit der erzeugten Zusammenfassung erleichtert wird, sind die in der Zusammenfassung verwendeten Sätze unterstrichen 2 17 and global customers with world-wide network management capabilities," said Joydeep Bose, director, AT&amp;T Managed Network Solutions, India. "This facility is a significant technological investment and is the first-ever of its kind in the country." <br>The GNMC will be run by AT&amp;T's Managed Network Solutions division, which focuses on the communications needs of MNCs world-wide. AT&amp;T will also offer an extensive, flexible range of communications services including network analysis and design, network integration and implementation, and a complete suite of outsourced network operations management services. AT&amp;T Managed Network Solutions will provide world-class, product-independent services for voice and data networking to help customers choose the best technology and transmission facilities the market can offer. "More and more companies are setting up or expanding their businesses in India," said Rakesh Bhasin, president, AT&amp;T Managed Network Solutions, Asia/Pacific. "In order to expand efficiently, they need communications networks they can trust. AT&amp;T can help save companies time, money and resources by offering expert advice on installing and 'future proofing' a network, managing it once it has been built, and making sure it provides consistent, high-quality, seamless voice and data connections." AT&amp;T Labs, AT&amp;T's world-renowned research and development facility, will provide on-site support for the GNMC and bring customers the benefits of leading-edge software and equipment, developed both in-house and by vendors, for network design and benchmarking in a multi-vendor environment. </BODY> </HTML> Durch den Befehl imzsum –b 2 –l 4 kann eine Zusammenfassung auf vier Sätze erzeugt werden1: E:\TextTools>imzsum -b 2 -l 4 e:\seminarDemo\ibm\summaryATT.html IMZSUM - Text Summarization Version 2.3 <IMZ ID>e:\seminarDemo\ibm\summaryATT.html</IMZ ID> <IMZ TITLE>AT&amp;T opens India's first global network management centre</IMZ TI TLE> <IMZ CONTENT> BANGALORE, India, M2 PRESSWIRE via Individual Inc. : AT&T today launched India 's first Global Network Management Centre (GNMC) to meet the networking needs of local companies and multinational corporations (MNCs) in India. AT&T Labs, AT&T 's world-renowned research and development facility, will provid e on-site support for the GNMC and bring customers the benefits of leading-edge software and equipment, developed both in-house and by vendors, for network desi gn and benchmarking in a multi-vendor environment. </IMZ CONTENT> <!-----> weitere Anwendungsbeispiele finden sich unter: http://www-4.ibm.com/software/data/iminer/fortext/tatools.html 1 Erklärung der Parameter: siehe Dokumentation zu IBM Intelligent Miner for Text 18 Literaturverzeichnis [Gen1999] P. Gentsch, J. Diercks: Ganzheitlich schürfen, iX, 11/1999, S.112-123 [Goe1999] M. Goebel, L. Gruenwald: A survey of data mining and knowledge discovery software tools, SIGKDD Explorations, June 1999, Vol 1, Issue 1, S.20-33 [Hös1996] H.-P. Höschel: Erfolgreiche Suche im Data Warehouse, PC Magazin, 7/96 [Moe1997] G. Moerkotte, T. Westmann: Schwarze Magie, iX, 8/1997, S.128-133 [Ste1999] U. Steinecke: Kunde am Draht, iX, 11/1999, S.107-111 [Web2000] O. Weber: Goldgräberstimmung wie einst am Yukon, BÖRSE ONLINE, 20/2000, S.90-94 Internetseiten •= zentrale Übersichtsseite http://www.kdnuggets.com •= Herstellerseiten http://www.dbminer.com http://www-4.ibm.com/software/data/iminer/fortext/