Data Mining - Carl Hanser Verlag

Werbung
CARL HANSER VERLAG
Ian H. Witten, Eibe Frank
Data Mining
Praktische Werkzeuge und Techniken für das maschinelle Lernen
3-446-21533-6
www.hanser.de
Inhalt
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII
1
Worum geht es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1 Data Mining und maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . .
Beschreibung strukturierter Muster . . . . . . . . . . . . . . . . . . . . . . . . . .
Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
4
5
7
1.2 Einfache Beispiele: Das Wetterproblem und andere . . . . . . . . . . . . . . .
Das Wetterproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kontaktlinsen: Ein idealisiertes Problem . . . . . . . . . . . . . . . . . . . . . .
Iris: Eine klassische numerische Datenmenge . . . . . . . . . . . . . . . . . .
CPU-Leistung: Einführung in numerische Vorhersagen . . . . . . . . . .
Tarifverhandlungen: Ein realistischeres Beispiel . . . . . . . . . . . . . . . .
Sojabohnen-Klassifizierung: Ein Erfolg des klassischen
maschinellen Lernens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
9
11
14
15
16
19
1.3 Anwendungen in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entscheidungen durch Beurteilungen . . . . . . . . . . . . . . . . . . . . . . . .
Bildanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lastabschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Marketing und Verkauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
22
23
24
25
26
1.4 Maschinelles Lernen und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
1.5 Generalisierung als Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Auflistung des Konzeptraums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sprach-Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Such-Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bias zur Vermeidung einer Überanpassung . . . . . . . . . . . . . . . . . . . .
29
31
32
32
33
34
1.6 Data Mining und Ethik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
1.7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
VI
2
Inhalt
Eingaben: Konzepte, Instanzen, Attribute . . . . . . . . . . . . . . . . .
41
2.1 Was ist ein Konzept? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
2.2 Was enthält ein Beispiel? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2.3 Was enthält ein Attribut? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.4 Aufbereitung der Eingaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sammeln der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das ARFF-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Attributtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ungenaue Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lernen Sie Ihre Daten kennen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
53
54
55
57
58
59
2.5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3
Ausgabe: Wissensdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
3.1 Entscheidungstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
3.2 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
3.3 Klassifikationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3.4 Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3.5 Regeln mit Ausnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
3.6 Regeln mit Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
3.7 Bäume für numerische Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
3.8 Instanzbasierte Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.9 Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
3.10 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
4
Algorithmen: Die grundlegenden Methoden . . . . . . . . . . . . . .
83
4.1 Ableitung elementarer Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte und numerische Attribute . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
85
88
4.2 Statistische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte und numerische Attribute . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
92
95
Inhalt
VII
4.3 Teile und Herrsche: Der Aufbau von Entscheidungsbäumen . . . . . . . . 95
Berechnung des Informationsmaßes . . . . . . . . . . . . . . . . . . . . . . . . . 99
Attribute mit vielen Verzweigungen . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.4 Abdeckungs-Algorithmen: die Konstruktion von Regeln . . . . . . . . . . .
Regeln oder Bäume? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ein einfacher Abdeckungs-Algorithmus . . . . . . . . . . . . . . . . . . . . . . .
Regeln oder Entscheidungslisten? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104
105
106
111
4.5 Erzeugen von Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gegenstandsmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regeln effizient generieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
112
113
117
119
4.6 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Numerische Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
120
120
121
122
4.7 Instanzbasiertes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Die Distanzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.8 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5
Glaubwürdigkeit: Auswertung des Gelernten . . . . . . . . . . . . . 127
5.1 Trainieren und Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.2 Leistungsvorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.3 Kreuzvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.4 Andere Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Leave-one-out . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.5 Data Mining-Verfahren im Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.6 Vorhersage von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
Quadratische Verlustfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Informatorische Verlustfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
143
144
145
VIII
Inhalt
5.7 Die Kosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Steigerungsdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ROC-Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Berücksichtung der Lernkosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
146
148
151
154
155
5.8 Auswertung numerischer Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.9 Das Prinzip der minimalen Beschreibungslänge . . . . . . . . . . . . . . . . . . 161
5.10 Anwendung des MDL-Prinzips auf das Clustering . . . . . . . . . . . . . . . . 165
5.11 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6
Implementierungen: Maschinelles Lernen
in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.1 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Numerische Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Abschätzung der Fehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Komplexität der Entscheidungsbaum-Induktion . . . . . . . . . . . . . . .
Von Bäumen zu Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C4.5: Auswahlmöglichkeiten und Optionen . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
171
171
173
174
177
180
181
182
183
6.2 Klassifikationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kriterien für die Auswahl von Auswertungen . . . . . . . . . . . . . . . . . .
Fehlende Werte, numerische Attribute . . . . . . . . . . . . . . . . . . . . . . . .
Gute Regeln, schlechte Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gute Regeln erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gute Entscheidungslisten erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeitswert zur Regelevaluation . . . . . . . . . . . . . . . . . .
Regeln mit einer Testmenge evaluieren . . . . . . . . . . . . . . . . . . . . . . .
Regeln aus partiellen Bäumen entnehmen . . . . . . . . . . . . . . . . . . . . .
Regeln mit Ausnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
184
184
186
187
188
190
191
193
196
200
203
6.3 Erweiterung der linearen Klassifikation: Support-Vektor-Maschinen . .
Die maximal diskriminierende Hyperebene . . . . . . . . . . . . . . . . . . .
Nichtlineare Klassengrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
204
206
208
209
Inhalt
IX
6.4 Instanzbasiertes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zahl der Exemplare verringern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verrauschte Exemplare beschneiden . . . . . . . . . . . . . . . . . . . . . . . . .
Attribute gewichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemplare generalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distanzfunktionen für generalisierte Exemplare . . . . . . . . . . . . . . . .
Generalisierte Distanzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
210
210
211
213
214
215
217
217
6.5 Numerische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modellbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Den Baum aufbauen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Den Baum beschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nominale Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pseudocode für die Modellbaum-Induktion . . . . . . . . . . . . . . . . . . .
Lokal gewichtete lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
219
220
221
221
222
223
224
227
228
6.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Iteratives distanzbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . . . . .
Inkrementelles Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kategorienützlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeitsbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . .
Der EM-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Mischungsmodell erweitern . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bayessches Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
229
230
231
236
238
241
243
245
247
7
Es geht weiter:
Aufbereitung der Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . 249
7.1 Attributauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verfahrensunabhängige Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Durchsuchen des Attributraums . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verfahrensspezifische Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
252
254
255
257
7.2 Diskretisierung numerischer Attribute . . . . . . . . . . . . . . . . . . . . . . . . .
Unüberwachte Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entropie-basierte Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Weitere Methoden der Diskretisierung . . . . . . . . . . . . . . . . . . . . . . .
Entropiebasierte und fehlerbasierte Diskretisierung im Vergleich . . .
Diskrete in numerische Attribute umwandeln . . . . . . . . . . . . . . . . . .
259
260
261
265
266
268
X
Inhalt
7.3 Automatische Datensäuberung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entscheidungsbäume verbessern . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Robuste Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Anomalien entdecken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
269
269
270
272
7.4 Kombination mehrerer Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlerkorrigierende Ausgabecodes . . . . . . . . . . . . . . . . . . . . . . . . . . .
273
274
277
282
284
7.5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
8
Nägel mit Köpfen:
Algorithmen des maschinellen Lernens in Java . . . . . . . . . . . 291
8.1 Die ersten Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
8.2 Javadoc und die Klassenbibliothek . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Klassen, Instanzen und Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das weka.core-Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das weka.classifiers-Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Andere Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
298
298
299
300
303
303
8.3 Datenmengen mit maschinellen Lernprogrammen verarbeiten . . . . . .
M5’ verwenden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Allgemeine Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verfahrensspezifische Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Klassifizierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metalernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
304
304
306
309
310
314
317
322
324
8.4 Eingebettetes maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ein einfacher Nachrichten-Klassifizierer . . . . . . . . . . . . . . . . . . . . . .
Main() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MessageClassifier() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
UpdateModel() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ClassifyMessage() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
326
326
328
328
333
334
8.5 Neue Lernverfahren schreiben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Ein Beispielklassifizierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
BuildClassifier() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
Inhalt
XI
MakeTree() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ComputeInfoGain() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ClassifyInstance() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Main() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konventionen zur Implementierung von Klassifizierern . . . . . . . . . .
Das Schreiben von Filtern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ein Beispielfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konventionen für das Schreiben von Filtern . . . . . . . . . . . . . . . . . . .
9
336
341
342
342
343
344
346
350
Blick nach vorn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
9.1 Lernen aus sehr großen Datenmengen . . . . . . . . . . . . . . . . . . . . . . . . . 352
9.2 Visualisierung von maschinellem Lernen . . . . . . . . . . . . . . . . . . . . . . . 355
Visualisierung der Eingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
Visualisierung der Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
9.3 Das Einbinden von Domänenwissen . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
9.4 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schlüsselworte in Dokumenten finden . . . . . . . . . . . . . . . . . . . . . . . .
Informationen aus Fließtext entnehmen . . . . . . . . . . . . . . . . . . . . . .
Soft-Parsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
362
362
364
366
9.5 Mining im World Wide Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
9.6 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
Herunterladen