Dokument-Kategorisierung 1. Definition 2. Was braucht man um Dokumente zu kategorisieren? 2.1 Dokumente: Corpus 2.2 Kategorien 2.3 Methoden 2.3.1 Rocchios Algorithmus 2.3.2 Naive Bayes Algorithmus 3. Der Prozeß 4. Bewertung der Kategorisierung : wann ist es gelungen? 5. Einige Experimente 6. Ripper: ein kontext-Sensibler Algorithmus 1.- Dokument-kategorisierung Definition: -automatische/manuale Kategorisierung Sind: c = { c1,.....cm } eine Menge von vordefinierte Kategorien d = { d1,.....dm } eine Menge von Dokumente zu kategorisieren Wenn auf aij der Wert 1 entfällt dann gehört d1 zur Kategorie c1, ist der Wert dagegen 0, zählt d1 nicht zu c1 d1 ... dj dn C1 a11 a1j a1n Ci ai1 aij ain am1 amj amn ... Cm • Was braucht man um Dokumente zu kategorisieren? Dokumente, Kategorien und Methoden zu kategorisieren 1.- Dokumente Die zwei bekanntesten Corpora -Der Reuters Corpus –newswire stories seit 1987 bis 1991. -Der OHSUMED Corpus –348,566 Referenzen aus 270 Medizinische Zeitungen seit 1987 bis 1991. 2.- Kategorien • man kann mit einer Menge oder einer Hierarchie von Kategorien arbeiten. Ein Dokument kann zu einer, keiner oder einigen Kategorien gehören. • Die Kategorien sollen objektive Etiketten sein und ihre Auswahl hängt von der Anwendungen ab. 3.- Methode zur Kategorisierung 3.1- Methoden zur Kategorisierung » » » » » » » » » » » » » CONSTRUE Dtree. SWAP-1 Nnets Charade EG WH Sleeping Experts LLSF KNN Rocchio Naive Bayes Algorithmus Ripper 3.1.1 - Linearen Klasifikatoren: Roccios Algorithmus • Dokumente, werden representiert durch ein Gewichtsvektor (Vector space model) tf x idf -weighting. • Die Repräsentierung jeder Kategorie ist die Mitte dieser Kategorie, d.h. der Durchschnitt der Dokumente, welche in der Kategorie existieren. • Dokumente werden entsprechend ihrer Nähe zum zentralen Punkt klassifiziert. B A – Dokument Class A D – neues Dokument A B A B A B A B C B C A A C D C C C 3.1.2-Lineare Klassifikatoren: Naive Bayes Algorithmus • Das Ziel ist die Berechnung, mit welcher Wahrscheinlichkeit ein Dokument einer Kategorie angehört. Es wird durch das Bayes Theorem berechnet. d –Dokument zum Kategorisieren P (c j | d ) = P (d | c j ) P (c j ) P (d ) cj - Kategorie • Man benutzt die Information des Corpus der vorkategorisierten Dokumente um sie zu berechnen. • Ein Dokument wird durch ein Gewichtsvektor repräsentiert. {0,1} • Um P(d / cj ) zu kalkulieren vermutet man: – dass die Erscheinung von einem Wort in einem Dokument unabhängig von der Erscheinung anderer Wörter im gleichen Dokument ist. – (Hier wird der Unterschied zwischen Ripper und andere Klassifikatoren markiert. -Kontext Sensibilität-) 1.-DER PROZEß Typische Kategorisierungsprozesse: Die Auswahl eines Corpus und die Teilung jenes Corpus in zwei Teile: • Teil des Corpus fürs Training – man benutzt ihn, um die Repräsentation von Kategorien und Dokumenten darzustellen. • Teil des Corpus zur Bewertung –man benutzt ihn, um die Effektivität der Kategorisierung zu bewerten-. Cross-Validation: -man untergliedert ein Corpus in K-Stückchen, trennt mit K-1 und bewertet mit dem Rest (am Ende wird der Durchschnitt berechnet). 1. Preprocessing: 2.- DER PROZEß • HTML oder andere <etiqueten> eliminieren • stopwords eliminieren • Stemming 2. Indexing: 1. D.h.,eine Repräsentation für jedes Dokument durch Vektoren zu erhalten. Es soll repräsentieren: -wie viele Wörter es gibt -wieviele Male ein Wort in einem Dokument vorkommt -wieviele Male ein Wort in dem ganzen Corpus vorkommt 2. Mit dem letzten zwei Parametern wird ein Vektor mit dem Gewicht des Wortes aufgebaut. 3.- DER PROZEß 3. Dimensionality reduccion mit so vielen Vektoren und Regeln ist der Prozess viel zu kompliziert: man kann die „dimensionality“ reduzieren: Dokument Frequency Thresholding: - Die Häufigkeit eines Wortes (Anzahl der Dokumente, in denen dieses Wort vorkomm). Man eliminiert alle Wörter dessen Häufigkeit kleiner als eine vordefinierte Schwelle ist. Re-parameterisation - Neue Regeln werden durch Kombinierung oder Veränderung der alten Regeln geschaffen. 4. Klassifizierung mit den kommentierten Algorithmen. 1.-Kategorisierung zur Bewertungen Methode: 1. MULTIPLE BINARY CLASSIFICATION (Sehen ob ein Dokument einer bestimmten Kategorie angehört oder nicht, für jedes Dokument und jede Kategorie) Kontingenz Tabelle für cj 1K / alle K. Angew. in cj Nicht angew in cj gehören cj a c geh. nicht cj b d Es werden bewertet: recall, Präzision, Fallout, accurancy, Error (Micro/Macro-averaging) a b a+d recall = fall. = accur.= a+c b+d a + b + c +d Präc. = a a+b error = b+c a+b+c+d 2.-Kategorisierung zur Bewertungen Andere Bewertungs-kriterien: MICRO-AVERAGING: -eine Einzel Kontingenz Tabelle MACRO-AVERAGING: -so viele Kontingenz-Tabellen wie Kategorien Kriterien die recall und Präzisionswerte kombinieren: 1. Break-even-point 2. Interpolation 3.-Kategorisierung zur Bewertungen Method: 2. MULTI-CLASS UND MULTI-LABEL CLASSIFICATION (zur die Bewertung einer Kategorisierungs Methode welche eine Rangliste von Kategorien für jedes Dokument wiedergibt) 11-point average precision: für ein Einzel Dokument recall = precision = Anzahl von gefundene Kategorie die richtig sind Summe aller (gef. und nicht gef. Kategorien) Anzahl von gefundenen Kategorien die richtig sind Summe aller gefundenen Kategorien 1.DAS EXPERIMENT Ziel : Die 14 Algorithmen in einem Corpus aus probieren und anschließend bewert. Korpus: Reuters-21578 (1987) 3.299 stories testen, 9.603 stories zu trainieren, 135 Kategorien. Preprozesing: Nach dem Stemming bleiben 15.247 Kanonische Wörter. Dimensionality reduction: Beide: Feature selection und re-parameterisation waren benutzt. Methode: Knn um die Kategorien zu extraieren. Bewertungen: Präzision und recall. Micro-averaging 2.DAS EXPERIMENT ERGEBNIS - - Einige Dokument waren 14 Kategorien zugewiesen, wobei der Durchschnitt bei 1,24 Kategorien pro Dokument lag. Das Wort „earnings“ kommt in 2709 Dokumenten vor. Es gibt 75 Kategorien (mehr als 50%) die nur für 10 Dokumente zugewiesen waren. 21 Kategorien waren für kein Dokument zugewiesen. - Allgemeine recall 79,2% Präzision 81,8 Break-even 80% Schwelle 0,2 mit Schwelle 0,3 break-even 89% - Für die 10 Häufiger Kategorien ERGEBNIS Author Train Test Topics Indexing Reduc. Method Measure Dumais 9.603 3.299 118 boolean MI Binary Breakeven Joachims 9.603 3.299 90 tfc IG Binary Breakeven Shapire 9.603 3.299 ? tf x idf None Multicl. Breakeven Weiss 9.603 3.299 95 frequenz ? Binary Breakeven Yang 7.789 3.309 93 X² Binary Breakeven ltc Author Rocchio Bayes k-NN Tree SVM Voting Dumais 61.7 75.2 - - 87.0 - Joachims 79.9 72.0 82.3 79.4 86.0 - Shapire x x - - - x Weiss 78.7 73.4 86.3 78.9 86.3 87.8 Yang 75.0 71.0 85.0 79.0 - Automatische Dokument- kategorisierung • Stellun kategorisierte Dokumente Analyse Stellungen von Kategorien Kategorien neue Dokumente Analyse Stellungen von neuen Dokumenten Berechnug der Ähnlichkeit Neue kategorissierte Dokumenten 3.1.3-Lineare Klassifikatoren: Naive Bayes Algorithmus • man hat z.B. 3 Kategorien: A,B und C. Man beschreibt die Dokumente durch 5 Punkte X1 X2 X3 X4 X5 Wenn man ein Dokument 3 hat, wie hoch Wahrscheinlichkeit, dass dieses Dokument der Kategorie A,B oder C angehört? A B P(A/3) P(3/A)= 4/7 1 2 1 P(B/3) P(3/B)= 0 2 2 2 P(C/3) P(3/C)= 2/7 3 3 5 4 2 5 5 3 5 6 3 4 7 3 2 Messbar P(Beobachtung), Voraussetzung (Klasse A) P(Klasse/Beobachtung) C 1 1 1 3 2 3 1