Data Mining - Toc - Beck-Shop

Werbung
Data Mining
Praktische Werkzeuge und Techniken für das maschinelle Lernen
Bearbeitet von
Ian H. Witten, Eibe Frank
1. Auflage 2001. Taschenbuch. XX, 386 S. Paperback
ISBN 978 3 446 21533 7
Format (B x L): 16,8 x 24,1 cm
Gewicht: 751 g
Zu Leseprobe
schnell und portofrei erhältlich bei
Die Online-Fachbuchhandlung beck-shop.de ist spezialisiert auf Fachbücher, insbesondere Recht, Steuern und Wirtschaft.
Im Sortiment finden Sie alle Medien (Bücher, Zeitschriften, CDs, eBooks, etc.) aller Verlage. Ergänzt wird das Programm
durch Services wie Neuerscheinungsdienst oder Zusammenstellungen von Büchern zu Sonderpreisen. Der Shop führt mehr
als 8 Millionen Produkte.
CARL HANSER VERLAG
Ian H. Witten, Eibe Frank
Data Mining
Praktische Werkzeuge und Techniken für das maschinelle Lernen
3-446-21533-6
www.hanser.de
Inhalt
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII
1
Worum geht es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1 Data Mining und maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . .
Beschreibung strukturierter Muster . . . . . . . . . . . . . . . . . . . . . . . . . .
Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
4
5
7
1.2 Einfache Beispiele: Das Wetterproblem und andere . . . . . . . . . . . . . . .
Das Wetterproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kontaktlinsen: Ein idealisiertes Problem . . . . . . . . . . . . . . . . . . . . . .
Iris: Eine klassische numerische Datenmenge . . . . . . . . . . . . . . . . . .
CPU-Leistung: Einführung in numerische Vorhersagen . . . . . . . . . .
Tarifverhandlungen: Ein realistischeres Beispiel . . . . . . . . . . . . . . . .
Sojabohnen-Klassifizierung: Ein Erfolg des klassischen
maschinellen Lernens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
9
11
14
15
16
19
1.3 Anwendungen in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entscheidungen durch Beurteilungen . . . . . . . . . . . . . . . . . . . . . . . .
Bildanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lastabschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Marketing und Verkauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
22
23
24
25
26
1.4 Maschinelles Lernen und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
1.5 Generalisierung als Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Auflistung des Konzeptraums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sprach-Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Such-Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bias zur Vermeidung einer Überanpassung . . . . . . . . . . . . . . . . . . . .
29
31
32
32
33
34
1.6 Data Mining und Ethik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
1.7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
VI
2
Inhalt
Eingaben: Konzepte, Instanzen, Attribute . . . . . . . . . . . . . . . . .
41
2.1 Was ist ein Konzept? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
2.2 Was enthält ein Beispiel? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2.3 Was enthält ein Attribut? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.4 Aufbereitung der Eingaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sammeln der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das ARFF-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Attributtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ungenaue Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lernen Sie Ihre Daten kennen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
53
54
55
57
58
59
2.5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3
Ausgabe: Wissensdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
3.1 Entscheidungstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
3.2 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
3.3 Klassifikationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3.4 Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3.5 Regeln mit Ausnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
3.6 Regeln mit Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
3.7 Bäume für numerische Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
3.8 Instanzbasierte Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.9 Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
3.10 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
4
Algorithmen: Die grundlegenden Methoden . . . . . . . . . . . . . .
83
4.1 Ableitung elementarer Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte und numerische Attribute . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
85
88
4.2 Statistische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte und numerische Attribute . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
92
95
Inhalt
VII
4.3 Teile und Herrsche: Der Aufbau von Entscheidungsbäumen . . . . . . . . 95
Berechnung des Informationsmaßes . . . . . . . . . . . . . . . . . . . . . . . . . 99
Attribute mit vielen Verzweigungen . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.4 Abdeckungs-Algorithmen: die Konstruktion von Regeln . . . . . . . . . . .
Regeln oder Bäume? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ein einfacher Abdeckungs-Algorithmus . . . . . . . . . . . . . . . . . . . . . . .
Regeln oder Entscheidungslisten? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104
105
106
111
4.5 Erzeugen von Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gegenstandsmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regeln effizient generieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
112
113
117
119
4.6 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Numerische Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
120
120
121
122
4.7 Instanzbasiertes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Die Distanzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.8 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5
Glaubwürdigkeit: Auswertung des Gelernten . . . . . . . . . . . . . 127
5.1 Trainieren und Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.2 Leistungsvorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.3 Kreuzvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.4 Andere Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Leave-one-out . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.5 Data Mining-Verfahren im Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.6 Vorhersage von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
Quadratische Verlustfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Informatorische Verlustfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
143
144
145
VIII
Inhalt
5.7 Die Kosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Steigerungsdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ROC-Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Berücksichtung der Lernkosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
146
148
151
154
155
5.8 Auswertung numerischer Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.9 Das Prinzip der minimalen Beschreibungslänge . . . . . . . . . . . . . . . . . . 161
5.10 Anwendung des MDL-Prinzips auf das Clustering . . . . . . . . . . . . . . . . 165
5.11 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6
Implementierungen: Maschinelles Lernen
in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.1 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Numerische Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Abschätzung der Fehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Komplexität der Entscheidungsbaum-Induktion . . . . . . . . . . . . . . .
Von Bäumen zu Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C4.5: Auswahlmöglichkeiten und Optionen . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
171
171
173
174
177
180
181
182
183
6.2 Klassifikationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kriterien für die Auswahl von Auswertungen . . . . . . . . . . . . . . . . . .
Fehlende Werte, numerische Attribute . . . . . . . . . . . . . . . . . . . . . . . .
Gute Regeln, schlechte Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gute Regeln erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gute Entscheidungslisten erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeitswert zur Regelevaluation . . . . . . . . . . . . . . . . . .
Regeln mit einer Testmenge evaluieren . . . . . . . . . . . . . . . . . . . . . . .
Regeln aus partiellen Bäumen entnehmen . . . . . . . . . . . . . . . . . . . . .
Regeln mit Ausnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
184
184
186
187
188
190
191
193
196
200
203
6.3 Erweiterung der linearen Klassifikation: Support-Vektor-Maschinen . .
Die maximal diskriminierende Hyperebene . . . . . . . . . . . . . . . . . . .
Nichtlineare Klassengrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
204
206
208
209
Inhalt
IX
6.4 Instanzbasiertes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zahl der Exemplare verringern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verrauschte Exemplare beschneiden . . . . . . . . . . . . . . . . . . . . . . . . .
Attribute gewichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemplare generalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distanzfunktionen für generalisierte Exemplare . . . . . . . . . . . . . . . .
Generalisierte Distanzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
210
210
211
213
214
215
217
217
6.5 Numerische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modellbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Den Baum aufbauen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Den Baum beschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nominale Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pseudocode für die Modellbaum-Induktion . . . . . . . . . . . . . . . . . . .
Lokal gewichtete lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
219
220
221
221
222
223
224
227
228
6.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Iteratives distanzbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . . . . .
Inkrementelles Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kategorienützlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeitsbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . .
Der EM-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Mischungsmodell erweitern . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bayessches Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
229
230
231
236
238
241
243
245
247
7
Es geht weiter:
Aufbereitung der Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . 249
7.1 Attributauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verfahrensunabhängige Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Durchsuchen des Attributraums . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verfahrensspezifische Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
252
254
255
257
7.2 Diskretisierung numerischer Attribute . . . . . . . . . . . . . . . . . . . . . . . . .
Unüberwachte Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entropie-basierte Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Weitere Methoden der Diskretisierung . . . . . . . . . . . . . . . . . . . . . . .
Entropiebasierte und fehlerbasierte Diskretisierung im Vergleich . . .
Diskrete in numerische Attribute umwandeln . . . . . . . . . . . . . . . . . .
259
260
261
265
266
268
X
Inhalt
7.3 Automatische Datensäuberung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Entscheidungsbäume verbessern . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Robuste Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Anomalien entdecken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
269
269
270
272
7.4 Kombination mehrerer Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlerkorrigierende Ausgabecodes . . . . . . . . . . . . . . . . . . . . . . . . . . .
273
274
277
282
284
7.5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
8
Nägel mit Köpfen:
Algorithmen des maschinellen Lernens in Java . . . . . . . . . . . 291
8.1 Die ersten Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
8.2 Javadoc und die Klassenbibliothek . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Klassen, Instanzen und Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das weka.core-Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das weka.classifiers-Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Andere Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
298
298
299
300
303
303
8.3 Datenmengen mit maschinellen Lernprogrammen verarbeiten . . . . . .
M5’ verwenden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Allgemeine Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verfahrensspezifische Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Klassifizierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metalernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
304
304
306
309
310
314
317
322
324
8.4 Eingebettetes maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ein einfacher Nachrichten-Klassifizierer . . . . . . . . . . . . . . . . . . . . . .
Main() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MessageClassifier() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
UpdateModel() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ClassifyMessage() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
326
326
328
328
333
334
8.5 Neue Lernverfahren schreiben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Ein Beispielklassifizierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
BuildClassifier() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
Inhalt
XI
MakeTree() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ComputeInfoGain() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ClassifyInstance() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Main() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konventionen zur Implementierung von Klassifizierern . . . . . . . . . .
Das Schreiben von Filtern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ein Beispielfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konventionen für das Schreiben von Filtern . . . . . . . . . . . . . . . . . . .
9
336
341
342
342
343
344
346
350
Blick nach vorn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
9.1 Lernen aus sehr großen Datenmengen . . . . . . . . . . . . . . . . . . . . . . . . . 352
9.2 Visualisierung von maschinellem Lernen . . . . . . . . . . . . . . . . . . . . . . . 355
Visualisierung der Eingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
Visualisierung der Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
9.3 Das Einbinden von Domänenwissen . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
9.4 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schlüsselworte in Dokumenten finden . . . . . . . . . . . . . . . . . . . . . . . .
Informationen aus Fließtext entnehmen . . . . . . . . . . . . . . . . . . . . . .
Soft-Parsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
362
362
364
366
9.5 Mining im World Wide Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
9.6 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
Herunterladen