Text Mining und dessen Implementierung

Werbung
Christian Zietzsch / Norman Zänker
Text Mining
und dessen Implementierung
Diplomica Verlag
Christian Zietzsch, Norman Zänker
Text Mining und dessen Implementierung
ISBN: 978-3-8428-0970-3
Herstellung: Diplomica® Verlag GmbH, Hamburg, 2011
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder
Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl.
verbliebene fehlerhafte Angaben und deren Folgen.
© Diplomica Verlag GmbH
http://www.diplomica-verlag.de, Hamburg 2011
7
Inhaltsverzeichnis
Inhaltsverzeichnis
1 Einleitung
1.1
1.2
10
Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Grundlagen
2.1
2.2
2.3
Was ist Text Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufbau und Struktur von Text . . . . . . . . . . . . . . . . . . . . .
Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse
2.3.1 Die Linguistik und ihre Ebenen . . . . . . . . . . . . . . . . .
2.3.2 Syntagmatische und Paradigmatische Relationen . . . . . . .
2.3.3 Semantische Relationen . . . . . . . . . . . . . . . . . . . . .
3 Text Mining-Prozess
3.1
3.2
3.3
3.4
3.5
3.6
Unterschied Text Mining und Data Mining . . . . . . . . . . . . .
Dokumentsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Information Retrieval . . . . . . . . . . . . . . . . . . . .
3.2.2 Aufbau und Funktion eines Information Retrieval Systems
Dokumentaufbereitung . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Textressourcen . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Aufbau eines Analysekorpus . . . . . . . . . . . . . . . . .
3.3.2.1 Satzsegmentierung . . . . . . . . . . . . . . . . .
3.3.2.2 Wortsegmentierung . . . . . . . . . . . . . . . .
Text Mining - Statistische Analysemethoden . . . . . . . . . . . .
3.4.1 Zipfsches Gesetz . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Dierenzanalyse . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 Part-of-Speech Tagging . . . . . . . . . . . . . . . . . . .
3.4.3.1 Regelbasierte Tagger . . . . . . . . . . . . . . . .
3.4.3.2 Stochastische Tagger . . . . . . . . . . . . . . . .
3.4.3.3 Regelbasierte Tagger vs. Stochastische Tagger . .
3.4.4 Kookkurrenzanalyse . . . . . . . . . . . . . . . . . . . . .
Text Mining - Clusteranalyse . . . . . . . . . . . . . . . . . . . .
3.5.1 Nicht-hierarchische Verfahren . . . . . . . . . . . . . . . .
3.5.2 Hierarchische Verfahren . . . . . . . . . . . . . . . . . . .
3.5.3 Fuzzy-Clusteranalyse . . . . . . . . . . . . . . . . . . . . .
3.5.4 Dokumentähnlichkeit . . . . . . . . . . . . . . . . . . . . .
3.5.5 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . .
Text Mining - Musteranalyse . . . . . . . . . . . . . . . . . . . .
3.6.1 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . .
3.6.2 Syntaktische Muster . . . . . . . . . . . . . . . . . . . . .
4 Text Mining-Prozess anhand des Zalazar Text Miner
4.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
15
15
20
24
27
28
29
29
30
32
32
32
34
35
37
37
37
39
39
41
47
47
51
51
53
54
55
58
60
60
62
64
Programmaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung
Inhaltsverzeichnis
4.2
4.3
4.4
4.5
Dokumentaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Formatierung des zu analysierenden Textdokuments . . . . . . . .
4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung
Dokumentanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Part-of-Speech Tagging . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Dierenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3 Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ergebnisevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Handhabung des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . . .
4.5.1 Önen einer neuen Mail . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2 Durchführen der Textanalyse . . . . . . . . . . . . . . . . . . . . .
4.5.3 Speichern der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . .
4.5.4 Laden der Ergebnisse einer bereits analysierten Mail . . . . . . . .
8
67
67
68
75
75
78
79
81
82
83
84
85
86
5 Schlusswort
87
Literatur
89
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung
Abbildungsverzeichnis
9
Abbildungsverzeichnis
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Überblick: Aufbau eines Textes (vgl. G. Heyer [5]) . . . . . . . . . . . .
Prozess des Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . .
Vergleich Text Mining- und Data Mining Prozess . . . . . . . . . . . . .
Aufbau eines IR-Systems (vgl. T. Gottron [2]) . . . . . . . . . . . . . . .
Aufbau eines Hidden-Markov-Modells . . . . . . . . . . . . . . . . . . .
Komplettes Gitter für The design of the car is great. (in Anlehnung an
K. Haenelt [4]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reduziertes Gitter für The design of the car is great. mithilfe des ViterbiAlgorithmus (in Anlehnung an K. Haenelt [4]). . . . . . . . . . . . . . .
Wortnetz der Wortform technology (vgl. Uni-Leipzig, Projekt Wortschatz
[12]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Clustering mit k-means (vgl. G. Heyer [5]) . . . . . . . . . . . . . . . . .
Hierarchische Verfahren: agglomerativ (Links), divisiv (Rechts) . . . . .
Schmetterlingsproblem (vgl. S. Grossmann [3]) . . . . . . . . . . . . . .
Verfahren zur Ähnlichkeitsbestimmung zweier Cluster: single-link (Links),
complete-link (Mitte), group-average (Rechts) . . . . . . . . . . . . . . .
Beispiel: Clustering thematisch ähnlicher Dokumente . . . . . . . . . . .
Schematischer Aufbau des Zalazar Text Miner . . . . . . . . . . . . . . .
Klassendiagramm des Zalazar Text Miner . . . . . . . . . . . . . . . . .
Analysekorpus des Zalazar Text Miner . . . . . . . . . . . . . . . . . . .
Hauptfenster des Zalazar Text Miner . . . . . . . . . . . . . . . . . . . .
Filedialog zum Önen einer Mail . . . . . . . . . . . . . . . . . . . . . .
Analysefenster des Zalazar Text Miner . . . . . . . . . . . . . . . . . . .
Filedialog zum Speichern der gewonnenen Ergebnisse . . . . . . . . . . .
Filedialog zum Laden bereits gespeicherter Analyseergebnisse . . . . . .
.
.
.
.
.
15
27
28
30
42
. 44
. 46
.
.
.
.
50
52
53
54
.
.
.
.
.
.
.
.
.
.
58
59
65
66
69
82
83
84
85
86
Tabellenverzeichnis
1
2
3
4
5
6
7
8
9
Linguistische Ebenen und ihre Teildisziplinen (vgl. G. Heyer [5]) . . . . .
Häugkeitssortierte Liste des Romans Tom Sawyer (vgl. B. Homann [6])
Hidden-Markov-Matrix für den Satz The design of the car is great (Matrizenanordnung: A-Π-B) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Beispiele für Signikanzwerte der Kookkurrenz zweier Wortformen (vgl.
G. Heyer [5]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Term-Dokument-Matrix (vgl. G. Heyer [5]) . . . . . . . . . . . . . . . . .
Dokument-Dokument-Matrix (vgl. G. Heyer [5]) . . . . . . . . . . . . . .
Dokument-Dokument-Matrix (Beispiel) . . . . . . . . . . . . . . . . . . . .
Auszug aus dem Penn Treebank Tagset . . . . . . . . . . . . . . . . . . . .
Softwarelösungen zur Informationsextraktion . . . . . . . . . . . . . . . .
C. Zietzsch, N. Zänker: Text Mining und dessen Implementierung
19
37
42
50
56
57
59
76
87
Herunterladen