Data Mining Praktische Werkzeuge und Techniken für das maschinelle Lernen Bearbeitet von Ian H. Witten, Eibe Frank 1. Auflage 2001. Taschenbuch. XX, 386 S. Paperback ISBN 978 3 446 21533 7 Format (B x L): 16,8 x 24,1 cm Gewicht: 751 g Zu Leseprobe schnell und portofrei erhältlich bei Die Online-Fachbuchhandlung beck-shop.de ist spezialisiert auf Fachbücher, insbesondere Recht, Steuern und Wirtschaft. Im Sortiment finden Sie alle Medien (Bücher, Zeitschriften, CDs, eBooks, etc.) aller Verlage. Ergänzt wird das Programm durch Services wie Neuerscheinungsdienst oder Zusammenstellungen von Büchern zu Sonderpreisen. Der Shop führt mehr als 8 Millionen Produkte. CARL HANSER VERLAG Ian H. Witten, Eibe Frank Data Mining Praktische Werkzeuge und Techniken für das maschinelle Lernen 3-446-21533-6 www.hanser.de Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII 1 Worum geht es? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Data Mining und maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . Beschreibung strukturierter Muster . . . . . . . . . . . . . . . . . . . . . . . . . . Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 5 7 1.2 Einfache Beispiele: Das Wetterproblem und andere . . . . . . . . . . . . . . . Das Wetterproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kontaktlinsen: Ein idealisiertes Problem . . . . . . . . . . . . . . . . . . . . . . Iris: Eine klassische numerische Datenmenge . . . . . . . . . . . . . . . . . . CPU-Leistung: Einführung in numerische Vorhersagen . . . . . . . . . . Tarifverhandlungen: Ein realistischeres Beispiel . . . . . . . . . . . . . . . . Sojabohnen-Klassifizierung: Ein Erfolg des klassischen maschinellen Lernens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 9 11 14 15 16 19 1.3 Anwendungen in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entscheidungen durch Beurteilungen . . . . . . . . . . . . . . . . . . . . . . . . Bildanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lastabschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Marketing und Verkauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 22 23 24 25 26 1.4 Maschinelles Lernen und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.5 Generalisierung als Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auflistung des Konzeptraums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprach-Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Such-Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bias zur Vermeidung einer Überanpassung . . . . . . . . . . . . . . . . . . . . 29 31 32 32 33 34 1.6 Data Mining und Ethik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 VI 2 Inhalt Eingaben: Konzepte, Instanzen, Attribute . . . . . . . . . . . . . . . . . 41 2.1 Was ist ein Konzept? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.2 Was enthält ein Beispiel? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.3 Was enthält ein Attribut? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.4 Aufbereitung der Eingaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sammeln der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das ARFF-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Attributtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ungenaue Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lernen Sie Ihre Daten kennen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 53 54 55 57 58 59 2.5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3 Ausgabe: Wissensdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.1 Entscheidungstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.3 Klassifikationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.4 Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.5 Regeln mit Ausnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.6 Regeln mit Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.7 Bäume für numerische Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.8 Instanzbasierte Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.9 Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.10 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4 Algorithmen: Die grundlegenden Methoden . . . . . . . . . . . . . . 83 4.1 Ableitung elementarer Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlende Werte und numerische Attribute . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 85 88 4.2 Statistische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlende Werte und numerische Attribute . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 92 95 Inhalt VII 4.3 Teile und Herrsche: Der Aufbau von Entscheidungsbäumen . . . . . . . . 95 Berechnung des Informationsmaßes . . . . . . . . . . . . . . . . . . . . . . . . . 99 Attribute mit vielen Verzweigungen . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.4 Abdeckungs-Algorithmen: die Konstruktion von Regeln . . . . . . . . . . . Regeln oder Bäume? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ein einfacher Abdeckungs-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . Regeln oder Entscheidungslisten? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 105 106 111 4.5 Erzeugen von Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gegenstandsmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regeln effizient generieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 112 113 117 119 4.6 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Numerische Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 120 121 122 4.7 Instanzbasiertes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Die Distanzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.8 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5 Glaubwürdigkeit: Auswertung des Gelernten . . . . . . . . . . . . . 127 5.1 Trainieren und Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.2 Leistungsvorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.3 Kreuzvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.4 Andere Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Leave-one-out . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.5 Data Mining-Verfahren im Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.6 Vorhersage von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . Quadratische Verlustfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informatorische Verlustfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 143 144 145 VIII Inhalt 5.7 Die Kosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Steigerungsdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ROC-Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Berücksichtung der Lernkosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 148 151 154 155 5.8 Auswertung numerischer Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . 157 5.9 Das Prinzip der minimalen Beschreibungslänge . . . . . . . . . . . . . . . . . . 161 5.10 Anwendung des MDL-Prinzips auf das Clustering . . . . . . . . . . . . . . . . 165 5.11 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6 Implementierungen: Maschinelles Lernen in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 6.1 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Numerische Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abschätzung der Fehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Komplexität der Entscheidungsbaum-Induktion . . . . . . . . . . . . . . . Von Bäumen zu Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C4.5: Auswahlmöglichkeiten und Optionen . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 171 173 174 177 180 181 182 183 6.2 Klassifikationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kriterien für die Auswahl von Auswertungen . . . . . . . . . . . . . . . . . . Fehlende Werte, numerische Attribute . . . . . . . . . . . . . . . . . . . . . . . . Gute Regeln, schlechte Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gute Regeln erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gute Entscheidungslisten erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitswert zur Regelevaluation . . . . . . . . . . . . . . . . . . Regeln mit einer Testmenge evaluieren . . . . . . . . . . . . . . . . . . . . . . . Regeln aus partiellen Bäumen entnehmen . . . . . . . . . . . . . . . . . . . . . Regeln mit Ausnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 184 186 187 188 190 191 193 196 200 203 6.3 Erweiterung der linearen Klassifikation: Support-Vektor-Maschinen . . Die maximal diskriminierende Hyperebene . . . . . . . . . . . . . . . . . . . Nichtlineare Klassengrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 206 208 209 Inhalt IX 6.4 Instanzbasiertes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zahl der Exemplare verringern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verrauschte Exemplare beschneiden . . . . . . . . . . . . . . . . . . . . . . . . . Attribute gewichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemplare generalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distanzfunktionen für generalisierte Exemplare . . . . . . . . . . . . . . . . Generalisierte Distanzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 210 211 213 214 215 217 217 6.5 Numerische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modellbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Den Baum aufbauen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Den Baum beschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nominale Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pseudocode für die Modellbaum-Induktion . . . . . . . . . . . . . . . . . . . Lokal gewichtete lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 220 221 221 222 223 224 227 228 6.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Iteratives distanzbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . . . . . Inkrementelles Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kategorienützlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . . Der EM-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Mischungsmodell erweitern . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bayessches Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 230 231 236 238 241 243 245 247 7 Es geht weiter: Aufbereitung der Ein- und Ausgabe . . . . . . . . . . . . . . . . . . . . . . 249 7.1 Attributauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verfahrensunabhängige Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . Durchsuchen des Attributraums . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verfahrensspezifische Auswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 254 255 257 7.2 Diskretisierung numerischer Attribute . . . . . . . . . . . . . . . . . . . . . . . . . Unüberwachte Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entropie-basierte Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Methoden der Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . Entropiebasierte und fehlerbasierte Diskretisierung im Vergleich . . . Diskrete in numerische Attribute umwandeln . . . . . . . . . . . . . . . . . . 259 260 261 265 266 268 X Inhalt 7.3 Automatische Datensäuberung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entscheidungsbäume verbessern . . . . . . . . . . . . . . . . . . . . . . . . . . . . Robuste Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anomalien entdecken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 269 270 272 7.4 Kombination mehrerer Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlerkorrigierende Ausgabecodes . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 274 277 282 284 7.5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 8 Nägel mit Köpfen: Algorithmen des maschinellen Lernens in Java . . . . . . . . . . . 291 8.1 Die ersten Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 8.2 Javadoc und die Klassenbibliothek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassen, Instanzen und Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das weka.core-Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das weka.classifiers-Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Andere Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 298 299 300 303 303 8.3 Datenmengen mit maschinellen Lernprogrammen verarbeiten . . . . . . M5’ verwenden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Allgemeine Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verfahrensspezifische Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassifizierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metalernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 304 306 309 310 314 317 322 324 8.4 Eingebettetes maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ein einfacher Nachrichten-Klassifizierer . . . . . . . . . . . . . . . . . . . . . . Main() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MessageClassifier() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UpdateModel() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ClassifyMessage() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 326 328 328 333 334 8.5 Neue Lernverfahren schreiben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 Ein Beispielklassifizierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 BuildClassifier() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 Inhalt XI MakeTree() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ComputeInfoGain() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ClassifyInstance() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Main() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konventionen zur Implementierung von Klassifizierern . . . . . . . . . . Das Schreiben von Filtern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ein Beispielfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konventionen für das Schreiben von Filtern . . . . . . . . . . . . . . . . . . . 9 336 341 342 342 343 344 346 350 Blick nach vorn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 9.1 Lernen aus sehr großen Datenmengen . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.2 Visualisierung von maschinellem Lernen . . . . . . . . . . . . . . . . . . . . . . . 355 Visualisierung der Eingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 Visualisierung der Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 9.3 Das Einbinden von Domänenwissen . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 9.4 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schlüsselworte in Dokumenten finden . . . . . . . . . . . . . . . . . . . . . . . . Informationen aus Fließtext entnehmen . . . . . . . . . . . . . . . . . . . . . . Soft-Parsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 362 364 366 9.5 Mining im World Wide Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 9.6 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381