Power Point

Werbung
Dokument-Kategorisierung
1.
Definition
2.
Was braucht man um Dokumente zu kategorisieren?
2.1 Dokumente: Corpus
2.2 Kategorien
2.3 Methoden
2.3.1 Rocchios Algorithmus
2.3.2 Naive Bayes Algorithmus
3.
Der Prozeß
4.
Bewertung der Kategorisierung : wann ist es gelungen?
5.
Einige Experimente
6.
Ripper: ein kontext-Sensibler Algorithmus
1.- Dokument-kategorisierung
Definition: -automatische/manuale Kategorisierung
Sind:
c = { c1,.....cm } eine Menge von vordefinierte Kategorien
d = { d1,.....dm } eine Menge von Dokumente zu kategorisieren
Wenn auf aij der Wert 1 entfällt
dann gehört d1 zur Kategorie c1,
ist der Wert dagegen 0, zählt d1
nicht zu c1
d1
...
dj
dn
C1
a11
a1j
a1n
Ci
ai1
aij
ain
am1
amj
amn
...
Cm
• Was braucht man um Dokumente zu kategorisieren?
Dokumente, Kategorien und Methoden zu kategorisieren
1.- Dokumente Die zwei bekanntesten Corpora
-Der Reuters Corpus –newswire stories seit 1987 bis 1991.
-Der OHSUMED Corpus –348,566 Referenzen aus 270
Medizinische Zeitungen seit 1987 bis 1991.
2.- Kategorien
• man kann mit einer Menge oder einer Hierarchie von Kategorien arbeiten.
Ein Dokument kann zu einer, keiner oder einigen Kategorien gehören.
• Die Kategorien sollen objektive Etiketten sein und ihre Auswahl hängt von
der Anwendungen ab.
3.- Methode zur Kategorisierung
3.1- Methoden zur Kategorisierung
»
»
»
»
»
»
»
»
»
»
»
»
»
CONSTRUE
Dtree.
SWAP-1
Nnets
Charade
EG
WH
Sleeping Experts
LLSF
KNN
Rocchio
Naive Bayes Algorithmus
Ripper
3.1.1 - Linearen Klasifikatoren: Roccios Algorithmus
•
Dokumente, werden representiert durch ein Gewichtsvektor (Vector
space model) tf x idf -weighting.
•
Die Repräsentierung jeder Kategorie ist die Mitte dieser Kategorie, d.h.
der Durchschnitt der Dokumente, welche in der Kategorie existieren.
•
Dokumente werden entsprechend ihrer Nähe zum zentralen Punkt
klassifiziert.
B
A – Dokument
Class A
D – neues
Dokument
A
B
A
B
A
B
A
B
C
B
C
A
A
C
D
C
C
C
3.1.2-Lineare Klassifikatoren: Naive Bayes Algorithmus
• Das Ziel ist die Berechnung, mit welcher Wahrscheinlichkeit ein
Dokument einer Kategorie angehört. Es wird durch das Bayes
Theorem berechnet.
d –Dokument zum Kategorisieren
P (c j | d ) =
P (d | c j )  P (c j )
P (d )
cj - Kategorie
•
Man benutzt die Information des Corpus der vorkategorisierten
Dokumente um sie zu berechnen.
• Ein Dokument wird durch ein Gewichtsvektor repräsentiert. {0,1}
• Um P(d / cj ) zu kalkulieren vermutet man:
– dass die Erscheinung von einem Wort in einem Dokument
unabhängig von der Erscheinung anderer Wörter im gleichen
Dokument ist.
– (Hier wird der Unterschied zwischen Ripper und andere
Klassifikatoren markiert. -Kontext Sensibilität-)
1.-DER PROZEß
Typische Kategorisierungsprozesse:
Die Auswahl eines Corpus und die Teilung jenes Corpus in zwei Teile:
•
Teil des Corpus fürs Training – man benutzt ihn, um die
Repräsentation von Kategorien und Dokumenten darzustellen.
•
Teil des Corpus zur Bewertung –man benutzt ihn, um die Effektivität
der Kategorisierung zu bewerten-.
Cross-Validation: -man untergliedert ein Corpus in K-Stückchen, trennt mit
K-1 und bewertet mit dem Rest (am Ende wird der
Durchschnitt berechnet).
1.
Preprocessing:
2.- DER PROZEß
• HTML oder andere <etiqueten> eliminieren
• stopwords eliminieren
• Stemming
2.
Indexing:
1. D.h.,eine Repräsentation für jedes Dokument durch
Vektoren zu erhalten. Es soll repräsentieren:
-wie viele Wörter es gibt
-wieviele Male ein Wort in einem Dokument vorkommt
-wieviele Male ein Wort in dem ganzen Corpus vorkommt
2. Mit dem letzten zwei Parametern wird ein Vektor mit
dem Gewicht des Wortes aufgebaut.
3.- DER PROZEß
3.
Dimensionality reduccion mit so vielen Vektoren und Regeln ist der
Prozess viel zu kompliziert: man kann
die „dimensionality“ reduzieren:
Dokument Frequency Thresholding:
-
Die Häufigkeit eines Wortes (Anzahl der Dokumente, in denen dieses Wort
vorkomm). Man eliminiert alle Wörter dessen Häufigkeit kleiner als eine
vordefinierte Schwelle ist.
Re-parameterisation
-
Neue Regeln werden durch Kombinierung oder Veränderung der alten Regeln
geschaffen.
4.
Klassifizierung mit den kommentierten Algorithmen.
1.-Kategorisierung zur Bewertungen
Methode:
1. MULTIPLE BINARY CLASSIFICATION (Sehen ob ein Dokument einer
bestimmten Kategorie angehört oder nicht, für jedes Dokument und jede Kategorie)
Kontingenz Tabelle für cj
1K / alle K.
Angew. in cj
Nicht angew in cj
gehören cj
a
c
geh. nicht cj
b
d
Es werden bewertet: recall, Präzision, Fallout, accurancy, Error
(Micro/Macro-averaging)
a
b
a+d
recall =
fall. =
accur.=
a+c
b+d
a + b + c +d
Präc. =
a
a+b
error =
b+c
a+b+c+d
2.-Kategorisierung zur Bewertungen
Andere Bewertungs-kriterien:
MICRO-AVERAGING: -eine Einzel Kontingenz Tabelle
MACRO-AVERAGING: -so viele Kontingenz-Tabellen wie Kategorien
Kriterien die recall und Präzisionswerte kombinieren:
1. Break-even-point
2. Interpolation
3.-Kategorisierung zur Bewertungen
Method:
2. MULTI-CLASS UND MULTI-LABEL CLASSIFICATION (zur die
Bewertung einer Kategorisierungs Methode welche eine Rangliste von Kategorien
für jedes Dokument wiedergibt)
11-point average precision: für ein Einzel Dokument
recall =
precision =
Anzahl von gefundene Kategorie die richtig sind
Summe aller (gef. und nicht gef. Kategorien)
Anzahl von gefundenen Kategorien die richtig sind
Summe aller gefundenen Kategorien
1.DAS EXPERIMENT
Ziel : Die 14 Algorithmen in einem Corpus aus probieren und anschließend
bewert.
Korpus: Reuters-21578 (1987) 3.299 stories testen, 9.603 stories zu
trainieren, 135 Kategorien.
Preprozesing: Nach dem Stemming bleiben 15.247 Kanonische Wörter.
Dimensionality reduction: Beide: Feature selection und re-parameterisation
waren benutzt.
Methode: Knn um die Kategorien zu extraieren.
Bewertungen: Präzision und recall. Micro-averaging
2.DAS EXPERIMENT
ERGEBNIS
-
-
Einige Dokument waren 14 Kategorien zugewiesen, wobei der
Durchschnitt bei 1,24 Kategorien pro Dokument lag.
Das Wort „earnings“ kommt in 2709 Dokumenten vor.
Es gibt 75 Kategorien (mehr als 50%) die nur für 10 Dokumente
zugewiesen waren.
21 Kategorien waren für kein Dokument zugewiesen.
-
Allgemeine recall 79,2%
Präzision 81,8
Break-even 80%
Schwelle 0,2
mit Schwelle 0,3
break-even 89%
-
Für die 10 Häufiger
Kategorien
ERGEBNIS
Author
Train
Test
Topics
Indexing
Reduc.
Method
Measure
Dumais
9.603
3.299
118
boolean
MI
Binary
Breakeven
Joachims
9.603
3.299
90
tfc
IG
Binary
Breakeven
Shapire
9.603
3.299
?
tf x idf
None
Multicl.
Breakeven
Weiss
9.603
3.299
95
frequenz
?
Binary
Breakeven
Yang
7.789
3.309
93
X²
Binary
Breakeven
ltc
Author
Rocchio
Bayes
k-NN
Tree
SVM
Voting
Dumais
61.7
75.2
-
-
87.0
-
Joachims
79.9
72.0
82.3
79.4
86.0
-
Shapire
x
x
-
-
-
x
Weiss
78.7
73.4
86.3
78.9
86.3
87.8
Yang
75.0
71.0
85.0
79.0
-
Automatische Dokument- kategorisierung
• Stellun
kategorisierte
Dokumente
Analyse
Stellungen
von Kategorien
Kategorien
neue
Dokumente
Analyse
Stellungen von
neuen
Dokumenten
Berechnug
der
Ähnlichkeit
Neue
kategorissierte
Dokumenten
3.1.3-Lineare Klassifikatoren: Naive Bayes Algorithmus
• man hat z.B. 3 Kategorien: A,B und C.
Man beschreibt die Dokumente durch 5 Punkte
X1
X2
X3
X4
X5
Wenn man ein Dokument 3 hat, wie hoch Wahrscheinlichkeit, dass
dieses Dokument der Kategorie A,B oder C angehört?
A
B
P(A/3) P(3/A)= 4/7
1
2
1
P(B/3) P(3/B)= 0
2
2
2
P(C/3) P(3/C)= 2/7
3
3
5
4
2
5
5
3
5
6
3
4
7
3
2
Messbar P(Beobachtung), Voraussetzung (Klasse A)
P(Klasse/Beobachtung)
C
1
1
1
3
2
3
1
Herunterladen