Proseminar Text Mining Daniel Schwenk Mittwoch, den 11. April 2005 Text Mining Inhalt: 1. Übersicht 1.1 Data Mining 1.2 Webmining 1.3 Information Retrieval 2. Text Mining 2.1 Klassifikation beim Text Mining 2.2 Clustering im Text Mining 2.3 Visualisierung 2.4 Textanalyse 3. Anwendung und Ausblick 3.1 Offene Fragen und Ausblicke 3.2 Abschließende Bemerkung 1. Übersicht Bei der Recherche über das Themengebiet des Text Minings stolpert man sofort über verwandte Themen wie z.B. Data Mining, Data Warehouseing, Web Mining und Information Retrieval. Viele der Techniken die bei diesen „Verwandten“ üblicherweise zum Einsatz kommen, lassen sich oft mittels kleinerer Optimierungen in anderen Mining-Verfahren anwenden. Um jedoch einen Einblick in die Welt des Text Minings zu bekommen, muss man sich mit den wichtigsten Mining Varianten und deren Verfahren auseinandersetzen. 1.1 Data Mining Data Mining zählt wie alle hier vorgestellten Verfahren zu den analytischen Informationssystemen. Im Grunde genommen ist es die Anwendung effizienter Algorithmen auf bestehende Datenbestände (z.B. auf Datenbanken), welche Muster und für den Anwender unbekannte Informationen extrahieren. Bei den riesigen Datenmengen, welche bei Unternehmen oder Forschungszentren gespeichert sind, würde man ohne eine automatische Auswertung dieser Daten keine Chance haben, etwaige Auffälligkeiten zu finden, oder statistische Aussagen treffen zu können. Mit Data Mining ist es nunmehr möglich, gerade diese Dinge zu bestimmen. Marktanalysen, oder Aussagen über das Kaufverhalten von Personen, welche erfasst sind, können ebenso getroffen werden, wie zum Beispiel Auffälligkeiten im Bundesstrafregister. [1] Alternativ zum Data Mining könnte man auch auf das OLAP (Online Analytical Processing) Verfahren zurückgreifen, welches allerdings im Gegensatz zum Data Mining Hypothesen voraussetzt. Außerdem arbeitet man beim OLAP nicht mit normalisierten Tabellen, sondern mit so genanten Dimensionstabellen. [2] Methodologie des Data Mining Prozesses Um von Rohdaten zum gewünschten Ergebnis zu kommen, benötigt es mehr als „nur“ das reine Data Mining. Vielmehr ist es nur ein Teil in einem KDD Prozess („knowledge discovery in databases“), welcher oft auch gemeint ist wenn man von Data Mining spricht. Zum Gesamtprozess gehören mindestens folgende Punkte [3]: - - - Datenselektion: Relevante Teilmengen der Rohdaten werden ausgewählt. Nach der Extraktion dieser Daten folgt die inhaltliche und formale Aufbereitung. Daten-Aufbereitung: Gerechnet am Zeitaufwand stellt die Aufbereitung mit 90 % den größten Teil des KDD Prozesses dar. Ohne eine Aufbereitung können allerdings sehr hohe Fehlerraten auftreten, was empirische Untersuchungen belegen. o Daten(be)reinigung: Die Daten werden hier Struktur- und Formatvereinheitlicht. Fehler und sog. Rauschen werden identifiziert und behandelt. Erst bei ausreichender Datenqualität können die Daten für die Transformation und dann für eine weitere Analyse wetergegeben werden. o Datentransformation: Durch Zusammenfassung der Daten unter Berücksichtigung von Aggregationen wird die Datenmenge weiter reduziert auf eine für das Data Mining gerechte Form. Data Mining: o Modellspezifikation: Auswahl des Analyseverfahrens. Das für den Problemtyp am besten geeignete Verfahren wird ausgewählt. o Modellevaluation: Diese überprüft ob das Ergebnis den Anforderungen entspricht. Verfahrensspezifische Gütekriterien werden angewandt, überflüssige oder irrelevante Muster werden entfernt. Außerdem kann der Benutzer in die Ergebnissuche einbezogen werden. Techniken des Data Mining Prozesses In der Modellspezifikation des Data Mining Prozesses wird das Analyseverfahren gewählt. Hier bieten sich je nach Datenart verschiedene Ansätze an. Einige wichtige sind zum Beispiel die Clusteranalyse, Assoziationsregeln oder die Klassifikation. Gerade auf diese Ansätze möchte ich etwas eingehen. Clusteranalyse: Objekte werden aufgrund von Ähnlichkeiten in so genannte Cluster (Gruppen) eingeteilt. Dabei sollen Objekte im gleichen Cluster möglichst ähnlich zueinander sein. Objekte aus verschiedenen Clustern sollen möglichst unähnlich zueinander sein. Es ist allerdings auch möglich, Hierarchische Strukturen im Clustering Verfahren darzustellen. Es ist auch möglich die einzelnen Cluster als Gruppe von Punkten zu definieren, welche zueinander oder zu einem berechneten Schwerpunkt einen möglichst geringen Abstand haben. Hierfür ist allerdings ein Distanzmaß festzulegen. Wir können also definieren dass die Distanz zwischen dem Wort Fußball und einem Stadion kleiner ist, als die zwischen einem Fußball und einer Blasenentzündung. [4] Assoziationsregeln: Als Beispiel hierfür sei die Warenkorbanalyse auf eine Datenbank von Einkäufen bei Amazon.com Int'l Sales, Inc. aufgeführt. Ein Warenkorb beinhaltet die in einem bestimmten Zeitraum gekauften Produkte. Die Warenkorbanalyse misst für jedes der enthaltenen Produkte die Kaufwahrscheinlichkeit. Zudem wird die Wahrscheinlichkeit ermittelt, konkurrierende Produkte zu kaufen. Anhand der Warenkorbanalyse können beispielsweise Kundenprofile aufgestellt werden. Hat der Kunde Band 1 und Band 2 eines bekannten Buches gekauft, wird er sich vermutlich auch irgendwann Band 3 kaufen. Greift er öfters auf billigere Konkurrenzprodukte eines Produkts zurück, wird er dieses auch weiterhin öfters machen. Im Gegensatz zur Klassifizierung können sich Cluster hinsichtlich ihrer Themenumfänge überschneiden. [5]&[6] Klassifikation: Objekte werden aufgrund von Eigenschaften oder von Attributwerten in verschiedene Klassen eingeteilt. Hier kann man Entscheidungsbäume, statistische Auswertungen oder neuronale Netze zur Einteilung verwenden. So können Klassifikationsregeln festgelegt werden (z.B. ein Bankkunde der über 25 Jahre und unter 65 Jahren ist, nicht an einer tödlichen Krankheit leidet, ein Monatsgehalt von >10 000 € hat und nicht verschuldet ist, ist für die Bank kreditwürdig, einer mit den gleichen Referenzen allerdings arbeitslos und verschuldet ist, und sein Konto ständig überzogen hat, wird nur von wenigen Kreditinstituten einen Kredit bekommen). [7] 1.2 Web Mining Im eigentlichen ist Web Mining die Übertragung von Data Mining auf das Internet, speziell auf das World Wide Web (www), zur (teil)automatischen Extraktion von Informationen. Tatsächlich erweist sich diese Aufgabe als sehr schwierig. Es existieren Milliarden Seiten, teils dynamisch generiert, im html, shtml, oder xml Format, strukturiert oder unstrukturiert. Die Menge an gespeicherten Informationen als auch an Desinformationen oder Informationstypen ist mindestens ebenso erschlagend. Es ist nicht nur interessant einzelne angebotene Themengebiete zu extrahieren, sondern eben auch das Interesse der User welche diese Informationen anfordern. Kann man automatisch darauf schließen dass Webseiten die häufiger frequentiert werden auch qualitativ bessere Informationen bereitstellen? [8] Hier müssen wir unsere Untersuchungsgegenstände festlegen. Wir können unterscheiden zwischen einer Analyse der Inhalte (Web-Content-Mining), der Struktur der Seiten untereinander (Web Structure Mining), oder der Userverhalten (Web-Usage-Mining): Web-Content-Mining: Die Fülle an Informationen und Dateninhalten im Web wird beim Web-Content-Mining analysiert. Hierzu gehören alle textuellen und multimedialen Informationen, gleich in welchem Format sie vorliegen. Hier können wir nun mit Data Mining verfahren wie z.B. mit der Clusteranalyse Webseiten in thematisch zusammenhängende Bereiche unterteilen. Wichtig hierbei ist wiederum das Distanzmaß festzulegen, um ein sinnvolles Ergebnis zu erhalten. Ähnlichkeitsberechnungen von einzelnen Stichwörtern die auf mehreren Seiten desselben Clusters vorkommen, kann etwas über die statistische Gewichtung dieser Wörter aussagen. Mittels einer linguistischen Analyse, welche noch in der Erklärung zum Text Mining Verfahren erläutert wird, können Texte linguistisch erschlossen und auch der Bedeutung nach gruppiert werden. [9] Web Structure Mining: Wenn ein Benutzer nach einem Themengebiet bei einer Suchmaschine sucht, erwartet er ein qualitativ hochwertiges Ergebnis. Wenn ein Autor einer Webpage einen Hyperlink auf eine andere Seite setzt, gilt dies (sofern es sich nicht um einen Werbelink oder ein Link zur Navigation in den eigenen Seiten handelt) wie eine Empfehlung. Es wird also nicht nur auf den Wissensinhalt der besuchten Seite, sondern auch auf den der verlinkten Seite zurückgegriffen. [10] Web-Usage-Mining: Beim Web-Usage-Mining steht der Benutzer, beziehungsweise sein Verhalten, selbst im Mittelpunkt der Analyse. Welches Interesse hat er zu welchen Zeiten an welchen Themengebieten? Spricht ihn die Seite an, was für ein Surfverhalten hat er? Bei nicht identifizierten Usern (also Usern welche sich nicht über einen BenutzerLogin identifiziert haben) spricht man von nicht personalisiertem Web Mining. Seitenanfragen werden anonym mit einer ip in einem „Hitlog“ hinterlassen. Im anderen fall spricht man von personalisiertem Web Mining. Hier ist der User namentlich bekannt und man kann auch oft auf zusätzliche Datenquellen zur Analyse zugreifen. Schon mit einfachen Statistiken kann man z.B. die Häufigkeit von Zugriffen die zu Verknüpfungsfehlern führen feststellen. Mittels Assoziationsregeln, welche auch im Data Mining vorkommen, kann man auch Prognosen treffen, die sog. WENN-DANN Regeln. WENN Produktseite und dann zusätzliche Informationsseite DANN zu 20% Bestellseite. Wiederkehrende Muster im Zeitraum, in welchem sich User bestimmte Seiten anschauen, können entdeckt werden und letzten Endes kann der Web Mining Auftraggeber seinen Webshop dem Userverhalten anpassen. [9] 1.3 Information Retrieval Wie bei den anderen Verfahren geht es beim Information Retrieval (im Folgenden IR genannt) darum, dem Anwender dieses Verfahrens, gesuchtes Wissen zurückzuliefern. Für den Begriff oder das Gebiet IR selbst gibt es keine allgemein akzeptierte Definition oder Abgrenzung. Die Fachgruppe Information der Gesellschaft für Informatik beschreibt das Fachgebiet folgender maßen: „Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre Rolle im Prozess des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet.“ Dieses Wissen ist zwar nicht nur beschränkt auf Texte, allerdings möchte ich nun ein klassisches Retrieval Verfahren, wie das Boolsche Retrieval für Texte, näher erläutern. Eine Sammlung von Literatur sei in einer Datenbank gespeichert. Im einfachsten Fall sind die einzelnen Objekte der Texte Zeichenfolgen (Wörter), welche durch Leerzeichen, Interpunktionszeichen und Sonderzeichen begrenzt sind. Die Dokumente in dieser Datenbank sind im Allgemeinen auch in verschiedene Felder eingeteilt, die unterschiedliche Informationen enthalten. Nun kann man mit den Boolschen Operatoren AND, OR und NOT einerseits auf die Wörter selbst, andererseits auch auf die Felder zugreifen, und diese mit einer Wortabfrage kombinieren. So liefert eben AUTHOR = „Bukowski“ AND NOT TITEL = „Der Mann mit der Ledertasche“ nur Bücher zurück, die von Bukowski geschrieben sind und nicht den Titel „Der Mann mit der Ledertasche“ tragen. Mit IR Verfahren ist es allerdings auch möglich, eine Anfrage nicht so exakt zu stellen wie im obigen Beispiel, und trotzdem ein akzeptables Ergebnis zu bekommen. Um etwas über Fußball zu lesen, ohne ein spezielles Verzeichnis im Kopf zu haben, reicht es nach „Fußball“ zu suchen, und man bekommt die Texte welche das Wort beinhalten. Probleme können jedoch auftreten, bei Texten welche Homonyme beinhalten (gleich geschriebene Wörter mit anderer Bedeutung wie z.B. Bank (wie Sparkasse) und Bank (zum darauf sitzen). Es existieren etliche kommerzieller Retrievalsysteme, welche für die Interaktion mit Datenbanken und Dokumentensammlungen gemacht sind. Suchmaschinen wie Google beherrschen mittlerweile den Umgang mit dutzenden verschiedenen Dokumententypen (siehe http://aset.its.psu.edu/googledocs/filetypes.html). Der Hauptunterschied zum Text Mining aber ist, dass IR im Gegensatz zum Text Mining nicht einzelne Phrasen zurückliefert, welche Antwort auf eine gegebene Frage liefert, sondern immer nur ganze Dokumente, die zwar meistens die gewünschten Informationen enthalten, jedoch nicht gleich auf den ersten blick präsentiert werden. [11] 2. Text Mining Text Mining (auch Document Mining oder Text Data Mining genannt) bezeichnet die Entdeckung von korrekten, für den Benutzer relevanten Informationen aus Textdaten. Die Verfahren aus dem Data Mining kombiniert mit Linguistischen Analysen auf Texten führen zu den gewünschten Informationen. Text Mining wird definiert als Zweig bzw. Untergruppe von Data Mining mit der Analyse von Text als dessen Hauptaufgabe. Durch diese soll dem Benutzer sowohl der Überblick über die Textmengen als auch der Zugriff auf diese ermöglicht werden. Die Übersicht wird durch Organisation der Texte (clustering, classification), der Zugriff durch die Extraktion realisiert. Wie man beim Data Mining Verfahren schon entnehmen konnte, arbeitet dieses auf strukturierten Daten. Doch wie will man Texte aufbereiten, ohne dass ihr Sinn verloren geht? Und wenn Data Mining geordnete Tabellen erwartet, mit oder besser gesagt auf was arbeiten Text Mining Methoden? Falls der Text als solches erhalten bleibt für die Analyse, wird er im XML Format gespeichert. Es ist allerdings auch möglich Texte in numerische Daten zu übersetzen und in Tabellenform zu bringen. Dies geht z.B. ganz einfach in dem man sämtliche Wörter einer Dokumentensammlung als Spaltenbezeichnungen nimmt, jede Zeile steht für ein Dokument und man zählt in jedem Dokument wie oft welches Wort vorkommt. Hier könnte man nun die bereits bekannten Data Mining Methoden anwenden, allerdings wäre hier jegliche Form von Grammatik und Semantik welche in den Texten existiert hat zerstört. Außerdem wird auffallen dass viele Worte in den meisten Texten gar nicht vorkommen. Die numerischen Data Mining Methoden stoßen hier schnell an die Grenzen. Ziel ist es nun die Lücke zwischen Data Mining und Text Mining zu überbrücken. Im Wesentlichen kann man Text Mining in zwei Teilprozesse aufgliedern. In einem ersten Schritt werden formlose Textdokumente in eine Zwischenform überführt. Anschließend werden im Rahmen einer „Knowledge Destillation“ Semantische Informationen aus der Zwischenform extrahiert. Diese Zwischenform kann entweder eine halb- oder vollstrukturierte Form annehmen. In dieser Zwischenform können entweder ganze Dokumente (document based intermediate form) als Eintrag vorkommen, oder die Einträge stehen für Objekte oder Begriffe spezifischer Interessengebiete (concept based intermediate form). Bei der Bearbeitung der concept based Zwischenform werden Schemen und Beziehungen über mehrere Dokumente hinweg herausgelöst. Beispiel für diesen Schritt sind die Verfahren predictive Modeling (statistisches Verfahren für Prognosen), associative Discovery (Folgerungen) und Visualisation (Veranschaulichung). Beispiel für Verfahren bei der Document Based Intermediate Form wird die Knowledge Destillation (Wissensextraktion) mittels Clustering, Categorization oder Visualization durchgeführt. Hier spalten sich die Hersteller von Text Mining Programmen. Eine Gruppe verwendet in ihrer Software Verfahren, welche eine Zwischenform produzieren deren Einträge ganze Dokumente sind (document based intermediate form), die anderen verwenden zur Analyse eine Zwischenform die Objekte oder Begriffe spezifischer Interessengebiete als Einträge beinhaltet (concept based intermediate form). Da die meisten Miningsysteme mit natürlichen Sprachen arbeiten, haben sie keine konzeptübergreifenden Technologien. [12][13] 2.1 Klassifikation beim Text Mining Bei der Klassifikation beim Text Mining werden die Inhalte analysiert und aufgrund dieser Analyse wird den Dokumenten eine Klassenbeschreibung zugeordnet. Die Übernahme der Inhalte in ein semantisches Netz durch Indexierung ist ebenfalls ein Bestandteil der Klassifikation. In diesem gebiet gibt es mehrere kommerzielle Produkte wie zum Beispiel ecl@ass (www.eclass.de) oder Universal Decimal Classification (www.udcc.org). Frei verfügbare Systeme im Web sind zum Beispiel Yahoo und Dmoz. Beide sind manuell gepflegte Klassifikationssysteme. Dmoz ist in Google integriert, und engagierte Benutzer können an der Klassifikation mitarbeiten. Bei der automatischen Klassifikation eines Dokumentes werden Ähnlichkeiten zu bereits einsortierten Dokumenten ermittelt. Bei ausreichender Übereinstimmung wird dem neuen Dokument die gleiche Klassenbezeichnung zugeordnet wie dem bekannten, bereits bekannten einsortierten Dokument. Durch die Einordnung in unterschiedliche Hierarchiestufen, können Dokumente beschrieben werden, die mit mehreren bereits einsortierten Dokumenten Ähnlichkeiten aufweisen. Wie schon bei der Klassifikation im Data Mining können auch hier Entscheidungsbäume oder neuronale Netze angewandt werden. Bei der Verwendung neuronaler Netze, das zuvor durch Trainingsdurchläufe erst aufgebaut wurde, wird eine Einordnung in eine optimale Klasse vorgenommen. Bei dieser Einordnung werden als Ein- und Ausgabewerte der Neuronen das vorher festgelegte Distanzmaß verwendet. [14] Bei der Anwendung von Entscheidungsbäumen wird die Klassenzuordnung durch festgelegte Regeln, bzw. Aktionen vollzogen. Dabei werden gemäß eines Regelwerkes Entscheidungen getroffen und für eine Indexierung verwendet. Die Entscheidungsbäume werden solange verändert, bis ein möglichst hohes Abgrenzungspotenzial erreicht ist. Durch die Indizierung von Dokumenten hinsichtlich der Anwendung eines Klassensystems, ergeben sich folgende Möglichkeiten: - Orientierung durch eindeutige Themenbezeichnung (Klassenbeschreibung) - Thematisch ähnliche Texte sind auffindbar, dabei kann der Suchvorgang auf ähnliche Klassen beschränkt werden, was eine Effizienzsteigerung zur Folge hat. Durch Änderung der Hierarchie kann die Suche eingegrenzt oder ausgeweitet werden. 2.2 Clustering im Text Mining Das Clustering im Text Mining wird häufig für die Zusammenfassung von Begriffen und Dokumenten, ja sogar ganzer Wissenschaftsfelder, verwendet. Auch hier werden wie beim Clusterverfahren im Data Mining Ähnlichkeitsbetrachtungen und Abgrenzungsanalysen angewandt. Häufig verwendete Techniken stellen das Rocchio und das kNN Verfahren (k-nearest neighbour) dar. Das Rocchio Verfahren ist ein Vektormodellverfahren, bei dem ein bestehendes Klassensystem Voraussetzung ist. Während das Rocchio Verfahren für jede Klasse einen Durchschnittsvektor verwendet (welcher Zentroidvektor oder Prototyp genannt wird), mit dessen Hilfe neue Dokumente einsortiert werden, werden beim kNN Verfahren die Inhalte neuer Dokumente mit den Inhalten bereits einsortierter Dokumente verglichen. [14] 2.3 Visualisierung Es gibt eine große Anzahl von Text Mining Produkten, die als Knowledge Distillation Functions die Document Visualization anwenden. Das allgemeine Vorgehen ist die Organisation der Dokumente aufgrund von Ähnlichkeitsbetrachtungen und die Präsentation von Clustern in graphischer Form. 2.4 Textanalyse Die zweite Gruppe der Text Mining Produkte basiert auf der Computerlinguistik. Dabei wird untersucht wie die natürliche Sprache mit dem Computer verarbeitet werden kann. Sie fällt in das Themengebiet der Künstlichen Intelligenz und ist Schnittstelle zwischen Sprachwissenschaft und Informatik. Zu dieser Technik gehören die Textanalyse, die Textkategorisierung, die Informationsextraktion und die Zusammenfassung. [12] 3. Anwendung und Ausblick Erste Anwendungen im Bereich der Justiz wurden veröffentlicht. Eines davon wurde von einer amerikanischen Regierungsbehörde gefördert. Mittels optischer Schrifterkennung wurden Dokumente digitalisiert und in eine strukturierte Datenbasis überführt. Diese Datenbasis konnte mit standardisierter Analyse und Darstellungsprogrammen bearbeitet werden. Mittels einer kommerziellen Software konnten dann Fälle von Geldwäsche dargestellt werden. [15] Ein fiktives Beispiel einer möglichen Anwendung von Text Mining in der Praxis, wäre eine Software zur Marktanalyse durch Nachrichten welche im Internet veröffentlich wurden. Schwerpunktmäßig werden dabei Veröffentlichungen namhafter Nachrichtenagenturen (wie Reuters, dpa, etc.) verwendet. Systemstruktur: 1. Ein „Webcrawler“ sammelt beispielsweise zu unterschiedlichen Unternehmen Berichte. Arbeitet diese auf (Werbelinks, etc. entfernen usw.) und speichert sie für anschließende Untersuchungen. 2. Anschließend wählt man nur die Dokumente aus, die sich mit dem gewünschten Sachgebiet beschäftigen. Dies kann mittels Abfragen bewerkstelligt werden, die die Charakteristik der Dokumentgruppe erschließt. Die Dokumente in den ausgewählten Gruppen werden nun indexiert. 3. Mit Techniken der Textanalyse werden die Berichte in numerische Formate überführt. 4. Mittels Regelbasierenden Methoden wird der Datenbestand nach bestimmten Mustern durchsucht. 5. Veranschaulichung der Ergebnisse durch geeignete Präsentationstechniken. 3.1 Offene Fragen und Ausblicke Um genauere Text Mining Ergebnisse erzielen zu können, sind umfangreichere Zwischendatenbasen notwendig. Die dafür notwendige Semantik-Analyse erfordert derzeit noch sehr hohen Rechenaufwand. Derzeit werden oft nur wenige Wörter in der Sekunde semantisch erfasst. Die Forschung muss sich hier entweder auf eine Steigerung der Effizienz oder der Rechenleistung konzentrieren. Während Data Mining sprach unabhängig arbeitet, hat Text Mining Bezug auf die jeweilige Sprache, mit den semantischen Eigenheiten und lokalen Bedeutungen. Sehr wesentlich wäre die Entwicklung von Textrefining Tools, welche multilinguale Texte und Dokumente in eine sprach unabhängige Intermediate Form transferieren. Die meisten Programme konzentrieren sich momentan nur auf englische Schriftstücke. Die Erschließung anderssprachiger Dokumente würde einen großen, bislang unangetasteten Wissensschatz, dem Benutzer zugänglich machen. Eine sehr wichtige Rolle beim Text Mining spielt die Erschließung von fachspezifischen Texten. Hier kann einprogrammiertes Fachwissen Interpretationsfehler der Software vermeiden und Information besser erklärt wird. Momentan auf dem Markt befindliche Mining Produkte erfordern vom Anwender spezielle Vorkenntnisse und Fähigkeiten. Zukünftige Mining Tools sollten von einer breiten Benutzerschicht, sowohl aus dem technischen wie auch aus dem Managementbereich bedienbar sein. Manche Firmen, darunter auch SAS und SPSS haben damit begonnen, Text Mining und Data Mining zu kombinieren. Durch die Kombination kann die Faktenbasis deutlich vergrößert werden. [16] 3.2 Abschließende Bemerkung Die Bereitstellung ausgewählter Informationen die weltweit in verschiedenen Sprachen und Formen verstreut sind, ist einerseits eine große Herausforderung für die Technik, andererseits auch eine große Chance für die Entwicklung der Menschheit. Wissen das nicht benutzt wird weil es nicht zugänglich ist (oder ganz einfach nicht gefunden wurde) ist totes Wissen. Mit Werkzeugen wie dem Text Mining wird es zunehmend möglich sein, auf einen möglichst großen Wissensschatz dieser Welt zurückzugreifen. Dieser fordert aber sowohl im Bereich der Software Entwicklung als auch von der Leistungsfähigkeit von Rechnern weitere Verbesserungen. Das web bietet hierfür ideale Vorraussetzungen, da Informationen weltweit verfügbar gemacht werden können. Literatur [1] Ferber, R. Information Retrieval S. 14&15 [2] Bachmann, M. OLAP (Online Analytical Processing) – eine Einführung http://www.educeth.ch/informatik/vortraege/olap/ [3] Prof. Dr. Frieder Stolzenburg - Data Mining http://www2.hsharz.de/~fstolzenburg/datam/material/intro.pdf [4] Martin Theus, Multivariate Statistische Verfahren http://stats.math.uni-augsburg.de/lehre/SS04/CA1.pdf [5] Enno Gröper, Assoziationsregellernen http://www.informatik.huberlin.de/Forschung_Lehre/wm/Proseminar2004w/Assoziationsregellernen.pdf [6] Ferber, R. Information Retrieval S. 17&18 [7] Weiss, Indurkhya, Zhang, Damerau - Text Mining, S. 7&8 [8] Jiawei Han, Kevin Chen-Chuan Chang – Data Mining for Web Intelligence [9] Ralf Walther - Web Mining http://www.gi-ev.de/informatik/lexikon/inf-lex-web-mining.shtml [10] Wikipedia.de - http://de.wikipedia.org/wiki/Web_Mining & http://de.wikipedia.org/wiki/Webometrie [11] Ferber, R. Information Retrieval S. 21-31 [12] Ah-Hwee Tan – Text Mining: The state of the art and the challenges [13] Weiss, Indurkhya, Zhang, Damerau - Text Mining, S. 1-13 [14] Stefan Koch – Knowledge Discovery durch Text Mining http://stefkoch.de/diplom/knowledge-discovery-durch-text-mining.pdf [15] Weiss, Indurkhya, Zhang, Damerau - Text Mining, S. 157 ff. [16] Guy Creese – Volume Analytics: Duo-Mining: Combining Data and Text Mining http://www.dmreview.com/article_sub.cfm?articleId=1010449