1. Übersicht

Werbung
Proseminar Text Mining
Daniel Schwenk
Mittwoch, den 11. April 2005
Text Mining
Inhalt:
1. Übersicht
1.1 Data Mining
1.2 Webmining
1.3 Information Retrieval
2. Text Mining
2.1 Klassifikation beim Text Mining
2.2 Clustering im Text Mining
2.3 Visualisierung
2.4 Textanalyse
3. Anwendung und Ausblick
3.1 Offene Fragen und Ausblicke
3.2 Abschließende Bemerkung
1. Übersicht
Bei der Recherche über das Themengebiet des Text Minings stolpert man sofort über
verwandte Themen wie z.B. Data Mining, Data Warehouseing, Web Mining und
Information Retrieval. Viele der Techniken die bei diesen „Verwandten“ üblicherweise
zum Einsatz kommen, lassen sich oft mittels kleinerer Optimierungen in anderen
Mining-Verfahren anwenden. Um jedoch einen Einblick in die Welt des Text Minings
zu bekommen, muss man sich mit den wichtigsten Mining Varianten und deren
Verfahren auseinandersetzen.
1.1 Data Mining
Data Mining zählt wie alle hier vorgestellten Verfahren zu den analytischen
Informationssystemen. Im Grunde genommen ist es die Anwendung effizienter
Algorithmen auf bestehende Datenbestände (z.B. auf Datenbanken), welche Muster
und für den Anwender unbekannte Informationen extrahieren.
Bei den riesigen Datenmengen, welche bei Unternehmen oder Forschungszentren
gespeichert sind, würde man ohne eine automatische Auswertung dieser Daten
keine Chance haben, etwaige Auffälligkeiten zu finden, oder statistische Aussagen
treffen zu können. Mit Data Mining ist es nunmehr möglich, gerade diese Dinge zu
bestimmen. Marktanalysen, oder Aussagen über das Kaufverhalten von Personen,
welche erfasst sind, können ebenso getroffen werden, wie zum Beispiel
Auffälligkeiten im Bundesstrafregister. [1] Alternativ zum Data Mining könnte man
auch auf das OLAP (Online Analytical Processing) Verfahren zurückgreifen, welches
allerdings im Gegensatz zum Data Mining Hypothesen voraussetzt. Außerdem
arbeitet man beim OLAP nicht mit normalisierten Tabellen, sondern mit so genanten
Dimensionstabellen. [2]
Methodologie des Data Mining Prozesses
Um von Rohdaten zum gewünschten Ergebnis zu kommen, benötigt es mehr als
„nur“ das reine Data Mining. Vielmehr ist es nur ein Teil in einem KDD Prozess
(„knowledge discovery in databases“), welcher oft auch gemeint ist wenn man von
Data Mining spricht. Zum Gesamtprozess gehören mindestens folgende Punkte [3]:
-
-
-
Datenselektion: Relevante Teilmengen der Rohdaten werden ausgewählt.
Nach der Extraktion dieser Daten folgt die inhaltliche und formale
Aufbereitung.
Daten-Aufbereitung: Gerechnet am Zeitaufwand stellt die Aufbereitung mit
90 % den größten Teil des KDD Prozesses dar. Ohne eine Aufbereitung
können allerdings sehr hohe Fehlerraten auftreten, was empirische
Untersuchungen belegen.
o Daten(be)reinigung: Die Daten werden hier Struktur- und
Formatvereinheitlicht. Fehler und sog. Rauschen werden identifiziert
und behandelt. Erst bei ausreichender Datenqualität können die Daten
für die Transformation und dann für eine weitere Analyse wetergegeben
werden.
o Datentransformation: Durch Zusammenfassung der Daten unter
Berücksichtigung von Aggregationen wird die Datenmenge weiter
reduziert auf eine für das Data Mining gerechte Form.
Data Mining:
o Modellspezifikation: Auswahl des Analyseverfahrens. Das für den
Problemtyp am besten geeignete Verfahren wird ausgewählt.
o Modellevaluation: Diese überprüft ob das Ergebnis den Anforderungen
entspricht. Verfahrensspezifische Gütekriterien werden angewandt,
überflüssige oder irrelevante Muster werden entfernt. Außerdem kann
der Benutzer in die Ergebnissuche einbezogen werden.
Techniken des Data Mining Prozesses
In der Modellspezifikation des Data Mining Prozesses wird das Analyseverfahren
gewählt. Hier bieten sich je nach Datenart verschiedene Ansätze an. Einige wichtige
sind zum Beispiel die Clusteranalyse, Assoziationsregeln oder die Klassifikation.
Gerade auf diese Ansätze möchte ich etwas eingehen.
Clusteranalyse: Objekte werden aufgrund von Ähnlichkeiten in so genannte Cluster
(Gruppen) eingeteilt. Dabei sollen Objekte im gleichen Cluster möglichst ähnlich
zueinander sein. Objekte aus verschiedenen Clustern sollen möglichst unähnlich
zueinander sein. Es ist allerdings auch möglich, Hierarchische Strukturen im
Clustering Verfahren darzustellen.
Es ist auch möglich die einzelnen Cluster als Gruppe von Punkten zu definieren,
welche zueinander oder zu einem berechneten Schwerpunkt einen möglichst
geringen Abstand haben. Hierfür ist allerdings ein Distanzmaß festzulegen. Wir
können also definieren dass die Distanz zwischen dem Wort Fußball und einem
Stadion kleiner ist, als die zwischen einem Fußball und einer Blasenentzündung. [4]
Assoziationsregeln: Als Beispiel hierfür sei die Warenkorbanalyse auf eine
Datenbank von Einkäufen bei Amazon.com Int'l Sales, Inc. aufgeführt. Ein
Warenkorb beinhaltet die in einem bestimmten Zeitraum gekauften Produkte. Die
Warenkorbanalyse misst für jedes der enthaltenen Produkte die
Kaufwahrscheinlichkeit. Zudem wird die Wahrscheinlichkeit ermittelt, konkurrierende
Produkte zu kaufen. Anhand der Warenkorbanalyse können beispielsweise
Kundenprofile aufgestellt werden.
Hat der Kunde Band 1 und Band 2 eines bekannten Buches gekauft, wird er sich
vermutlich auch irgendwann Band 3 kaufen. Greift er öfters auf billigere
Konkurrenzprodukte eines Produkts zurück, wird er dieses auch weiterhin öfters
machen. Im Gegensatz zur Klassifizierung können sich Cluster hinsichtlich ihrer
Themenumfänge überschneiden. [5]&[6]
Klassifikation: Objekte werden aufgrund von Eigenschaften oder von Attributwerten in
verschiedene Klassen eingeteilt. Hier kann man Entscheidungsbäume, statistische
Auswertungen oder neuronale Netze zur Einteilung verwenden. So können
Klassifikationsregeln festgelegt werden (z.B. ein Bankkunde der über 25 Jahre und
unter 65 Jahren ist, nicht an einer tödlichen Krankheit leidet, ein Monatsgehalt von
>10 000 € hat und nicht verschuldet ist, ist für die Bank kreditwürdig, einer mit den
gleichen Referenzen allerdings arbeitslos und verschuldet ist, und sein Konto ständig
überzogen hat, wird nur von wenigen Kreditinstituten einen Kredit bekommen). [7]
1.2 Web Mining
Im eigentlichen ist Web Mining die Übertragung von Data Mining auf das Internet,
speziell auf das World Wide Web (www), zur (teil)automatischen Extraktion von
Informationen. Tatsächlich erweist sich diese Aufgabe als sehr schwierig. Es
existieren Milliarden Seiten, teils dynamisch generiert, im html, shtml, oder xml
Format, strukturiert oder unstrukturiert. Die Menge an gespeicherten Informationen
als auch an Desinformationen oder Informationstypen ist mindestens ebenso
erschlagend. Es ist nicht nur interessant einzelne angebotene Themengebiete zu
extrahieren, sondern eben auch das Interesse der User welche diese Informationen
anfordern. Kann man automatisch darauf schließen dass Webseiten die häufiger
frequentiert werden auch qualitativ bessere Informationen bereitstellen? [8]
Hier müssen wir unsere Untersuchungsgegenstände festlegen. Wir können
unterscheiden zwischen einer Analyse der Inhalte (Web-Content-Mining), der
Struktur der Seiten untereinander (Web Structure Mining), oder der Userverhalten
(Web-Usage-Mining):
Web-Content-Mining:
Die Fülle an Informationen und Dateninhalten im Web wird beim Web-Content-Mining
analysiert. Hierzu gehören alle textuellen und multimedialen Informationen, gleich in
welchem Format sie vorliegen. Hier können wir nun mit Data Mining verfahren wie
z.B. mit der Clusteranalyse Webseiten in thematisch zusammenhängende Bereiche
unterteilen. Wichtig hierbei ist wiederum das Distanzmaß festzulegen, um ein
sinnvolles Ergebnis zu erhalten. Ähnlichkeitsberechnungen von einzelnen
Stichwörtern die auf mehreren Seiten desselben Clusters vorkommen, kann etwas
über die statistische Gewichtung dieser Wörter aussagen. Mittels einer linguistischen
Analyse, welche noch in der Erklärung zum Text Mining Verfahren erläutert wird,
können Texte linguistisch erschlossen und auch der Bedeutung nach gruppiert
werden. [9]
Web Structure Mining:
Wenn ein Benutzer nach einem Themengebiet bei einer Suchmaschine sucht,
erwartet er ein qualitativ hochwertiges Ergebnis. Wenn ein Autor einer Webpage
einen Hyperlink auf eine andere Seite setzt, gilt dies (sofern es sich nicht um einen
Werbelink oder ein Link zur Navigation in den eigenen Seiten handelt) wie eine
Empfehlung. Es wird also nicht nur auf den Wissensinhalt der besuchten Seite,
sondern auch auf den der verlinkten Seite zurückgegriffen. [10]
Web-Usage-Mining:
Beim Web-Usage-Mining steht der Benutzer, beziehungsweise sein Verhalten, selbst
im Mittelpunkt der Analyse. Welches Interesse hat er zu welchen Zeiten an welchen
Themengebieten? Spricht ihn die Seite an, was für ein Surfverhalten hat er?
Bei nicht identifizierten Usern (also Usern welche sich nicht über einen BenutzerLogin identifiziert haben) spricht man von nicht personalisiertem Web Mining.
Seitenanfragen werden anonym mit einer ip in einem „Hitlog“ hinterlassen. Im
anderen fall spricht man von personalisiertem Web Mining. Hier ist der User
namentlich bekannt und man kann auch oft auf zusätzliche Datenquellen zur Analyse
zugreifen.
Schon mit einfachen Statistiken kann man z.B. die Häufigkeit von Zugriffen die zu
Verknüpfungsfehlern führen feststellen. Mittels Assoziationsregeln, welche auch im
Data Mining vorkommen, kann man auch Prognosen treffen, die sog. WENN-DANN
Regeln. WENN Produktseite und dann zusätzliche Informationsseite DANN zu 20%
Bestellseite. Wiederkehrende Muster im Zeitraum, in welchem sich User bestimmte
Seiten anschauen, können entdeckt werden und letzten Endes kann der Web Mining
Auftraggeber seinen Webshop dem Userverhalten anpassen. [9]
1.3 Information Retrieval
Wie bei den anderen Verfahren geht es beim Information Retrieval (im Folgenden IR
genannt) darum, dem Anwender dieses Verfahrens, gesuchtes Wissen
zurückzuliefern. Für den Begriff oder das Gebiet IR selbst gibt es keine allgemein
akzeptierte Definition oder Abgrenzung. Die Fachgruppe Information der Gesellschaft
für Informatik beschreibt das Fachgebiet folgender maßen:
„Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre Rolle im
Prozess des Wissenstransfers vom menschlichen Wissensproduzenten zum
Informations-Nachfragenden betrachtet.“
Dieses Wissen ist zwar nicht nur beschränkt auf Texte, allerdings möchte ich nun ein
klassisches Retrieval Verfahren, wie das Boolsche Retrieval für Texte, näher
erläutern.
Eine Sammlung von Literatur sei in einer Datenbank gespeichert. Im einfachsten Fall
sind die einzelnen Objekte der Texte Zeichenfolgen (Wörter), welche durch
Leerzeichen, Interpunktionszeichen und Sonderzeichen begrenzt sind. Die
Dokumente in dieser Datenbank sind im Allgemeinen auch in verschiedene Felder
eingeteilt, die unterschiedliche Informationen enthalten.
Nun kann man mit den Boolschen Operatoren AND, OR und NOT einerseits auf die
Wörter selbst, andererseits auch auf die Felder zugreifen, und diese mit einer
Wortabfrage kombinieren. So liefert eben AUTHOR = „Bukowski“ AND NOT TITEL =
„Der Mann mit der Ledertasche“ nur Bücher zurück, die von Bukowski geschrieben
sind und nicht den Titel „Der Mann mit der Ledertasche“ tragen.
Mit IR Verfahren ist es allerdings auch möglich, eine Anfrage nicht so exakt zu stellen
wie im obigen Beispiel, und trotzdem ein akzeptables Ergebnis zu bekommen. Um
etwas über Fußball zu lesen, ohne ein spezielles Verzeichnis im Kopf zu haben,
reicht es nach „Fußball“ zu suchen, und man bekommt die Texte welche das Wort
beinhalten.
Probleme können jedoch auftreten, bei Texten welche Homonyme beinhalten (gleich
geschriebene Wörter mit anderer Bedeutung wie z.B. Bank (wie Sparkasse) und
Bank (zum darauf sitzen).
Es existieren etliche kommerzieller Retrievalsysteme, welche für die Interaktion mit
Datenbanken und Dokumentensammlungen gemacht sind. Suchmaschinen wie
Google beherrschen mittlerweile den Umgang mit dutzenden verschiedenen
Dokumententypen (siehe http://aset.its.psu.edu/googledocs/filetypes.html).
Der Hauptunterschied zum Text Mining aber ist, dass IR im Gegensatz zum Text
Mining nicht einzelne Phrasen zurückliefert, welche Antwort auf eine gegebene Frage
liefert, sondern immer nur ganze Dokumente, die zwar meistens die gewünschten
Informationen enthalten, jedoch nicht gleich auf den ersten blick präsentiert werden.
[11]
2. Text Mining
Text Mining (auch Document Mining oder Text Data Mining genannt) bezeichnet die
Entdeckung von korrekten, für den Benutzer relevanten Informationen aus
Textdaten. Die Verfahren aus dem Data Mining kombiniert mit Linguistischen
Analysen auf Texten führen zu den gewünschten Informationen.
Text Mining wird definiert als Zweig bzw. Untergruppe von Data Mining mit der
Analyse von Text als dessen Hauptaufgabe. Durch diese soll dem Benutzer sowohl
der Überblick über die Textmengen als auch der Zugriff auf diese ermöglicht werden.
Die Übersicht wird durch Organisation der Texte (clustering, classification), der
Zugriff durch die Extraktion realisiert.
Wie man beim Data Mining Verfahren schon entnehmen konnte, arbeitet dieses auf
strukturierten Daten. Doch wie will man Texte aufbereiten, ohne dass ihr Sinn
verloren geht? Und wenn Data Mining geordnete Tabellen erwartet, mit oder besser
gesagt auf was arbeiten Text Mining Methoden?
Falls der Text als solches erhalten bleibt für die Analyse, wird er im XML Format
gespeichert. Es ist allerdings auch möglich Texte in numerische Daten zu übersetzen
und in Tabellenform zu bringen. Dies geht z.B. ganz einfach in dem man sämtliche
Wörter einer Dokumentensammlung als Spaltenbezeichnungen nimmt, jede Zeile
steht für ein Dokument und man zählt in jedem Dokument wie oft welches Wort
vorkommt. Hier könnte man nun die bereits bekannten Data Mining Methoden
anwenden, allerdings wäre hier jegliche Form von Grammatik und Semantik welche
in den Texten existiert hat zerstört. Außerdem wird auffallen dass viele Worte in den
meisten Texten gar nicht vorkommen. Die numerischen Data Mining Methoden
stoßen hier schnell an die Grenzen.
Ziel ist es nun die Lücke zwischen Data Mining und Text Mining zu überbrücken. Im
Wesentlichen kann man Text Mining in zwei Teilprozesse aufgliedern. In einem
ersten Schritt werden formlose Textdokumente in eine Zwischenform überführt.
Anschließend werden im Rahmen einer „Knowledge Destillation“ Semantische
Informationen aus der Zwischenform extrahiert. Diese Zwischenform kann entweder
eine halb- oder vollstrukturierte Form annehmen. In dieser Zwischenform können
entweder ganze Dokumente (document based intermediate form) als Eintrag
vorkommen, oder die Einträge stehen für Objekte oder Begriffe spezifischer
Interessengebiete (concept based intermediate form). Bei der Bearbeitung der
concept based Zwischenform werden Schemen und Beziehungen über mehrere
Dokumente hinweg herausgelöst. Beispiel für diesen Schritt sind die Verfahren
predictive Modeling (statistisches Verfahren für Prognosen), associative Discovery
(Folgerungen) und Visualisation (Veranschaulichung).
Beispiel für Verfahren bei der Document Based Intermediate Form wird die
Knowledge Destillation (Wissensextraktion) mittels Clustering, Categorization oder
Visualization durchgeführt.
Hier spalten sich die Hersteller von Text Mining Programmen. Eine Gruppe
verwendet in ihrer Software Verfahren, welche eine Zwischenform produzieren deren
Einträge ganze Dokumente sind (document based intermediate form), die anderen
verwenden zur Analyse eine Zwischenform die Objekte oder Begriffe spezifischer
Interessengebiete als Einträge beinhaltet (concept based intermediate form). Da die
meisten Miningsysteme mit natürlichen Sprachen arbeiten, haben sie keine
konzeptübergreifenden Technologien. [12][13]
2.1 Klassifikation beim Text Mining
Bei der Klassifikation beim Text Mining werden die Inhalte analysiert und aufgrund
dieser Analyse wird den Dokumenten eine Klassenbeschreibung zugeordnet. Die
Übernahme der Inhalte in ein semantisches Netz durch Indexierung ist ebenfalls ein
Bestandteil der Klassifikation. In diesem gebiet gibt es mehrere kommerzielle
Produkte wie zum Beispiel ecl@ass (www.eclass.de) oder Universal Decimal
Classification (www.udcc.org).
Frei verfügbare Systeme im Web sind zum Beispiel Yahoo und Dmoz. Beide sind
manuell gepflegte Klassifikationssysteme. Dmoz ist in Google integriert, und
engagierte Benutzer können an der Klassifikation mitarbeiten.
Bei der automatischen Klassifikation eines Dokumentes werden Ähnlichkeiten zu
bereits einsortierten Dokumenten ermittelt. Bei ausreichender Übereinstimmung wird
dem neuen Dokument die gleiche Klassenbezeichnung zugeordnet wie dem
bekannten, bereits bekannten einsortierten Dokument. Durch die Einordnung in
unterschiedliche Hierarchiestufen, können Dokumente beschrieben werden, die mit
mehreren bereits einsortierten Dokumenten Ähnlichkeiten aufweisen.
Wie schon bei der Klassifikation im Data Mining können auch hier
Entscheidungsbäume oder neuronale Netze angewandt werden. Bei der
Verwendung neuronaler Netze, das zuvor durch Trainingsdurchläufe erst aufgebaut
wurde, wird eine Einordnung in eine optimale Klasse vorgenommen. Bei dieser
Einordnung werden als Ein- und Ausgabewerte der Neuronen das vorher festgelegte
Distanzmaß verwendet. [14]
Bei der Anwendung von Entscheidungsbäumen wird die Klassenzuordnung durch
festgelegte Regeln, bzw. Aktionen vollzogen. Dabei werden gemäß eines
Regelwerkes Entscheidungen getroffen und für eine Indexierung verwendet. Die
Entscheidungsbäume werden solange verändert, bis ein möglichst hohes
Abgrenzungspotenzial erreicht ist.
Durch die Indizierung von Dokumenten hinsichtlich der Anwendung eines
Klassensystems, ergeben sich folgende Möglichkeiten:
- Orientierung durch eindeutige Themenbezeichnung (Klassenbeschreibung)
- Thematisch ähnliche Texte sind auffindbar, dabei kann der Suchvorgang auf
ähnliche Klassen beschränkt werden, was eine Effizienzsteigerung zur Folge
hat. Durch Änderung der Hierarchie kann die Suche eingegrenzt oder
ausgeweitet werden.
2.2 Clustering im Text Mining
Das Clustering im Text Mining wird häufig für die Zusammenfassung von Begriffen
und Dokumenten, ja sogar ganzer Wissenschaftsfelder, verwendet. Auch hier werden
wie beim Clusterverfahren im Data Mining Ähnlichkeitsbetrachtungen und
Abgrenzungsanalysen angewandt.
Häufig verwendete Techniken stellen das Rocchio und das kNN Verfahren (k-nearest
neighbour) dar. Das Rocchio Verfahren ist ein Vektormodellverfahren, bei dem ein
bestehendes Klassensystem Voraussetzung ist. Während das Rocchio Verfahren für
jede Klasse einen Durchschnittsvektor verwendet (welcher Zentroidvektor oder
Prototyp genannt wird), mit dessen Hilfe neue Dokumente einsortiert werden, werden
beim kNN Verfahren die Inhalte neuer Dokumente mit den Inhalten bereits
einsortierter Dokumente verglichen. [14]
2.3 Visualisierung
Es gibt eine große Anzahl von Text Mining Produkten, die als Knowledge Distillation
Functions die Document Visualization anwenden. Das allgemeine Vorgehen ist die
Organisation der Dokumente aufgrund von Ähnlichkeitsbetrachtungen und die
Präsentation von Clustern in graphischer Form.
2.4 Textanalyse
Die zweite Gruppe der Text Mining Produkte basiert auf der Computerlinguistik.
Dabei wird untersucht wie die natürliche Sprache mit dem Computer verarbeitet
werden kann. Sie fällt in das Themengebiet der Künstlichen Intelligenz und ist
Schnittstelle zwischen Sprachwissenschaft und Informatik. Zu dieser Technik
gehören die Textanalyse, die Textkategorisierung, die Informationsextraktion und die
Zusammenfassung. [12]
3. Anwendung und Ausblick
Erste Anwendungen im Bereich der Justiz wurden veröffentlicht. Eines davon wurde
von einer amerikanischen Regierungsbehörde gefördert. Mittels optischer
Schrifterkennung wurden Dokumente digitalisiert und in eine strukturierte Datenbasis
überführt. Diese Datenbasis konnte mit standardisierter Analyse und
Darstellungsprogrammen bearbeitet werden. Mittels einer kommerziellen Software
konnten dann Fälle von Geldwäsche dargestellt werden. [15]
Ein fiktives Beispiel einer möglichen Anwendung von Text Mining in der Praxis, wäre
eine Software zur Marktanalyse durch Nachrichten welche im Internet veröffentlich
wurden. Schwerpunktmäßig werden dabei Veröffentlichungen namhafter
Nachrichtenagenturen (wie Reuters, dpa, etc.) verwendet.
Systemstruktur:
1. Ein „Webcrawler“ sammelt beispielsweise zu unterschiedlichen Unternehmen
Berichte. Arbeitet diese auf (Werbelinks, etc. entfernen usw.) und speichert sie für
anschließende Untersuchungen.
2. Anschließend wählt man nur die Dokumente aus, die sich mit dem gewünschten
Sachgebiet beschäftigen. Dies kann mittels Abfragen bewerkstelligt werden, die die
Charakteristik der Dokumentgruppe erschließt. Die Dokumente in den ausgewählten
Gruppen werden nun indexiert.
3. Mit Techniken der Textanalyse werden die Berichte in numerische Formate
überführt.
4. Mittels Regelbasierenden Methoden wird der Datenbestand nach bestimmten
Mustern durchsucht.
5. Veranschaulichung der Ergebnisse durch geeignete Präsentationstechniken.
3.1 Offene Fragen und Ausblicke
Um genauere Text Mining Ergebnisse erzielen zu können, sind umfangreichere
Zwischendatenbasen notwendig. Die dafür notwendige Semantik-Analyse erfordert
derzeit noch sehr hohen Rechenaufwand. Derzeit werden oft nur wenige Wörter in
der Sekunde semantisch erfasst. Die Forschung muss sich hier entweder auf eine
Steigerung der Effizienz oder der Rechenleistung konzentrieren.
Während Data Mining sprach unabhängig arbeitet, hat Text Mining Bezug auf die
jeweilige Sprache, mit den semantischen Eigenheiten und lokalen Bedeutungen.
Sehr wesentlich wäre die Entwicklung von Textrefining Tools, welche multilinguale
Texte und Dokumente in eine sprach unabhängige Intermediate Form transferieren.
Die meisten Programme konzentrieren sich momentan nur auf englische
Schriftstücke. Die Erschließung anderssprachiger Dokumente würde einen großen,
bislang unangetasteten Wissensschatz, dem Benutzer zugänglich machen.
Eine sehr wichtige Rolle beim Text Mining spielt die Erschließung von
fachspezifischen Texten. Hier kann einprogrammiertes Fachwissen
Interpretationsfehler der Software vermeiden und Information besser erklärt wird.
Momentan auf dem Markt befindliche Mining Produkte erfordern vom Anwender
spezielle Vorkenntnisse und Fähigkeiten. Zukünftige Mining Tools sollten von einer
breiten Benutzerschicht, sowohl aus dem technischen wie auch aus dem
Managementbereich bedienbar sein.
Manche Firmen, darunter auch SAS und SPSS haben damit begonnen, Text Mining
und Data Mining zu kombinieren. Durch die Kombination kann die Faktenbasis
deutlich vergrößert werden. [16]
3.2 Abschließende Bemerkung
Die Bereitstellung ausgewählter Informationen die weltweit in verschiedenen
Sprachen und Formen verstreut sind, ist einerseits eine große Herausforderung für
die Technik, andererseits auch eine große Chance für die Entwicklung der
Menschheit. Wissen das nicht benutzt wird weil es nicht zugänglich ist (oder ganz
einfach nicht gefunden wurde) ist totes Wissen. Mit Werkzeugen wie dem Text
Mining wird es zunehmend möglich sein, auf einen möglichst großen Wissensschatz
dieser Welt zurückzugreifen. Dieser fordert aber sowohl im Bereich der Software
Entwicklung als auch von der Leistungsfähigkeit von Rechnern weitere
Verbesserungen. Das web bietet hierfür ideale Vorraussetzungen, da Informationen
weltweit verfügbar gemacht werden können.
Literatur
[1] Ferber, R. Information Retrieval S. 14&15
[2] Bachmann, M. OLAP (Online Analytical Processing) – eine Einführung
http://www.educeth.ch/informatik/vortraege/olap/
[3] Prof. Dr. Frieder Stolzenburg - Data Mining http://www2.hsharz.de/~fstolzenburg/datam/material/intro.pdf
[4] Martin Theus, Multivariate Statistische Verfahren
http://stats.math.uni-augsburg.de/lehre/SS04/CA1.pdf
[5] Enno Gröper, Assoziationsregellernen http://www.informatik.huberlin.de/Forschung_Lehre/wm/Proseminar2004w/Assoziationsregellernen.pdf
[6] Ferber, R. Information Retrieval S. 17&18
[7] Weiss, Indurkhya, Zhang, Damerau - Text Mining, S. 7&8
[8] Jiawei Han, Kevin Chen-Chuan Chang – Data Mining for Web Intelligence
[9] Ralf Walther - Web Mining
http://www.gi-ev.de/informatik/lexikon/inf-lex-web-mining.shtml
[10] Wikipedia.de - http://de.wikipedia.org/wiki/Web_Mining &
http://de.wikipedia.org/wiki/Webometrie
[11] Ferber, R. Information Retrieval S. 21-31
[12] Ah-Hwee Tan – Text Mining: The state of the art and the challenges
[13] Weiss, Indurkhya, Zhang, Damerau - Text Mining, S. 1-13
[14] Stefan Koch – Knowledge Discovery durch Text Mining
http://stefkoch.de/diplom/knowledge-discovery-durch-text-mining.pdf
[15] Weiss, Indurkhya, Zhang, Damerau - Text Mining, S. 157 ff.
[16] Guy Creese – Volume Analytics: Duo-Mining: Combining Data and Text Mining
http://www.dmreview.com/article_sub.cfm?articleId=1010449
Herunterladen