Text Mining - ASV, Uni Leipzig

Werbung
Text Mining Wissensrohstoff Text
Gerhard Heyer
Universität Leipzig
[email protected]
Institut für Informatik
Clustering
Clustering und Klassifikation –
Grundlegende Unterscheidungen, Definitionen
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
2
Clustering
Ziele
Zuordnung/Einteilung von Instanzen zu/in
Klassen
• Klassifikation: Klassen sind vorher bekannt, z.B.
aus Trainingsmenge berechnet
• Clustering: Klassen sind vorher nicht bekannt.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
3
Clustering
Aufgaben
• Clustering: Finden von ähnlichen Datensätzen
– Wie lässt sich die Datenmenge so in mehrere Teile teilen, dass
diese sich deutlich voneinander unterscheiden?
• Klassifikation: Zuordnung eines Datensatzes zu
einem gegebenen Typ
– Die Klassen sind (evtl. durch Beispiel-Datensätze) vorgegeben.
– Ziel ist ein Verfahren, welches alle Datensätze auf diese Klassen
verteilt.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
4
Clustering
Anwendungen
• Gruppierung von Dokumenten nach semantischer
Ähnlichkeit
• Gruppierung von Wörtern nach semantischer Ähnlichkeit
• Suche nach ähnlichen Dokumenten
• Untersuchung der enthaltenen Themen in einem
gegebenen Korpus
• …
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
5
Clustering
Clustering
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
6
Clustering
Vertiefende Aufgabenstellung
Einteilung von Instanzen in „natürliche“ Gruppen
(Cluster)
• Gruppen werden nicht vorgegeben, sondern aus der
Struktur der Menge der Instanzen abgeleitet
• Die Anzahl der Gruppen kann fest vorgegeben sein
oder muss vom Algorithmus ermittelt werden.
Anforderungen an die Einteilung:
– Homogenität innerhalb der Cluster: Die Elemente eines
Clusters sollten untereinander möglichst ähnlich sein.
– Heterogenität zwischen den Clustern: Elemente aus verschiedenen Clustern sollten zueinander möglichst unähnlich sein.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
7
Clustering
Vertiefende Aufgabenstellung
Clustering ist nicht trivial. Teilen Sie die folgenden 4 Begriffe in je zwei
Klassen:
• Strauß, Wal, Pinguin, Zebra
• Enkel, Enkelin, Oma, Opa
Clustering ist heuristisch:
Die optimale Einteilung zu finden ist NP-vollständig,
deshalb verschiedene Clusteringverfahren mit verschiedenen
Anwendungsgebieten
Neben den Clusterverfahren ist die Auswahl der Objektmerkmale
(features) entscheidend
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
8
Clustering
Verfahren für Clustering und Evaluierung
Verschiedene Modelle und Algorithmen
•
•
•
•
Cluster sind disjunkt oder dürfen sich überlappen
Verfahren sind deterministisch oder probabilistisch
Cluster sind hierarchisch angeordnet oder nicht
Der Algorithmus kann inkrementell lernen oder nur global.
Evaluierung
•
•
Gewöhnlich muß vom Menschen entschieden werden, ob das
Clustering „gut“ war.
Betrachtet man als Qualitätsmaß die Verteilung der Attribute
auf die Cluster, ist eine automatische Bewertung möglich.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
9
Clustering
Beispiel: Tage und Monate
Jahres
Donnerstag
Dienstag
Montag
Mittwoch
Samstag
Sonntag
Freitag
Januar
August
Juli
März
Mai
September
Februar
Dezember
November
Oktober
April
Juni
_____________________ Uhr,
_
| Uhr,
_|_
| Uhr,
_ |
| Uhr,
_|_|_
| Uhr,
___ |
| Uhr,
_ | |
| Uhr,
_|_|_|_____________ | Uhr,
_________________ | | Uhr,
_______________ | | | Uhr,
_____________ | | | | Uhr,
___________ | | | | | Uhr,
_________ | | | | | | Uhr,
_______ | | | | | | | Uhr,
_
| | | | | | | | Uhr,
_|___ | | | | | | | | Uhr,
_
| | | | | | | | | Uhr,
_|_ | | | | | | | | | Uhr,
_ | | | | | | | | | | Uhr,
_|_|_|_|_|_|_|_|_|_|_|_
Ende, abend, vergangenen, Anfang, Jahres, Samstag, Freitag, Mitte, Sonntag
abend, heutigen, Nacht, teilte, Mittwoch, Freitag, worden, mitteilte, sagte
abend, heutigen, teilte, Freitag, worden, kommenden, sagte, mitteilte, Nacht
abend, heutigen, Dienstag, kommenden, teilte, Freitag, worden, sagte, morgen
abend, heutigen, Nacht, Samstag, Freitag, Sonntag, kommenden, nachmittag
abend, Samstag, Nacht, Sonntag, Freitag, Montag, nachmittag, heutigen
abend, Samstag, Nacht, Montag, kommenden, morgen, nachmittag, vergangenen
abend, Ende, Jahres, Samstag, Anfang, Freitag, Sonntag, heutigen, worden
Ende, Jahres, Anfang, Mitte, Samstag, Mai, August, März, Januar
Ende, Jahres, Anfang, Mitte, Samstag, Mai, August, Januar, März
Jahres, Ende, Anfang, Mitte, Mai, Samstag, August, Januar, März
Ende, Jahres, Anfang, Mitte, Samstag, Mai, Januar, März, April
Ende, Jahres, Anfang, Mitte, Samstag, März, Januar, Mai, vergangenen
Ende, Jahres, Anfang, Mitte, Mai, Januar, März, Samstag, vergangenen
Januar, Jahres, Anfang, Mitte, Ende, März, November, Samstag, vergangenen
Jahres, Ende, Anfang, Mitte, Mai, Januar, März, Samstag, vergangenen
Jahres, Ende, Anfang, Mitte, September, vergangenen, Dezember, Samstag
Ende, Jahres, Anfang, Mai, Mitte, Samstag, September, März, vergangenen
Ende, Jahres, Mai, Anfang, März, Mitte, Prozent, Samstag, Hauptversammlung
Wo wird abgeschnitten?
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
10
Clustering
Beispiel: Chefs und Äußerungsverben
Chefs
Präsident
Vorsitzender
Vorsitzende
Sprecher
Sprecherin
Chef
Leiter
_________ sagte, Boris Jelzin, erklärte, stellvertretende, Bill Clinton, stellvertretender,
_______ | sagte, erklärte, stellvertretende, stellvertretender, Richter, Abteilung, bestätigte
___
| | sagte, erklärte, stellvertretende, Richter, bestätigte, Außenministeriums, teilte,
_ |
| | sagte, erklärte, Außenministeriums, bestätigte, teilte, gestern, mitteilte, Anfrage
_|_|_ | | sagte, erklärte, stellvertretende, Richter, Abteilung, bestätigte, Außenministeriums,
_
| | | Abteilung, Instituts, sagte, sagt, stellvertretender, Professor, Staatskanzlei, Dr.
_|___|_|_|_
Äußerungsverben
verwies
_____________ Sprecher, werde, gestern, Vorsitzende, Polizei, Sprecherin, Anfrage, Präsident, gebe
mitteilte ___________ | Sprecher, werde, gestern, Vorsitzende, Polizei, Sprecherin, Anfrage, Präsident, Montag
meinte
_______
| | Sprecher, werde, gestern, Vorsitzende, Sprecherin, Anfrage, Präsident, gebe, Interview
bestätigte_____ |
| | Sprecher, werde, gestern, Vorsitzende, Sprecherin, Anfrage, Präsident, gebe, Interview
betonte
___ | |
| | Sprecher, werde, gestern, Vorsitzende, Sprecherin, Präsident, gebe, Interview, würden,
sagte
_ | | |
| | Sprecher, werde, gestern, Vorsitzende, Sprecherin, Präsident, gebe, Interview, würden
erklärte _|_|_|_|_ | | Sprecher, werde, gestern, Vorsitzende, Sprecherin, Präsident, Anfrage, gebe, Interview
warnte
_
| | | Präsident, Vorsitzende, SPD, eindringlich, Ministerpräsident, CDU, Außenminister,
sprach
_|_______|_|_|_
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
11
Clustering
Grundlegende Methoden
hard
disjunkte Cluster - Jedes Element wird genau
einem Cluster zugeordnet.
soft
sich überlappende Cluster - Ein Element kann
mehreren Clustern zugeordnet werden. Der Grad
der Zugehörigkeit bzw. die Wahrscheinlichkeit
der Mitgliedschaft lässt sich für jedes Cluster
zusätzlich angeben.
hierarchisch vs. nicht-hierarchisch
inkrementell vs. global
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
12
Clustering
Verfahren für Clusteringalgorithmen
Top-down vs. Bottom-up
Single-link: minimaler Abstand zweier Elemente
Complete-link: maximaler Abstand
Group-averaging: Durchschnittsabstand
Single-Pass-Clustering (SPC)
- jedes Element wird nur ein Mal betrachtet
- entweder Dazuclustern oder neues Cluster aufmachen
Iteratives Verbessern
1. Initiale Clustereinteilung C(0) bestimmen, t=0
2. Zuordnung aller Elemente zu Clustern aus C(t)
3. Cluster optimieren, t++, neue Einteilung C(t)
4. Falls noch zu viel Änderung, gehe zu Schritt 2
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
13
Clustering
Abstands- und Ähnlichkeitsfunktionen
• Einfachster Fall: Ein numerisches Attribut
– Wähle die Differenz der Werte (oder eine Funktion
davon)
• Mehrere numerische Attribute
– Normiere die Attribute
– Wähle den Euklidischen Abstand
• Nominale Attribute
– Abstand 0 oder 1 je nachdem, ob die Werte gleich
oder verschieden sind
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
14
Clustering
Ähnlichkeitsmaße
Varianten der Bestimmung der Ähnlichkeit von Clustern A und B anhand
der enthaltenen Elemente
L1Norm
L2Norm
n
d x, y   L1 x, y    xi  yi
i 1
d x, y   L2 x, y   x  y 
n
 x  y 
2
i
i 1
i
n
Cosinus
x y
sim  x, y   cos   x, y  

x y
n
Dice
Jaccard
Prof. Dr. G. Heyer
2x  y
sim  x, y   2 2 
x y
2 xi yi
x y
i 1
Bemerkung
i i
n
n
 xi 2
 yi 2
i 1
i 1
d(x,y) = 1- sim(x,y), wenn
sim(x,y) im Bereich von 0 bis 1
liegt.
i 1
n
n
i 1
i 1
 xi 2   yi 2
x y
sim  x, y   2 2

x  y  x y
Umwandlung von sim(x,y)
d(x,y):
n
x y
n
i 1
n
i 1
i 1
i i
n
 xi 2   yi 2   xi yi
i 1
Text Mining – Wissensrohstoff Text
15
Clustering
Abstandfunktionen
• Bei Abstand zwischen Clustern wird ein Cluster durch
eines seiner Elemente oder durch ein fiktives Element
(Zentroid) vertreten.
• Zentroid: Betrachte fiktives Element mit
Attributwerten berechnet als Mittelwert der
(numerischen) Attribute der Elemente
Sind alle Attribute gleich wichtig?
Eine unterschiedliche Gewichtung der Attribute ist möglich.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
16
Clustering
Abstandsfunktionen für Cluster
Maße zur Bestimmung des Abstandes zwischen Individuen bzw.
zwischen einem Individuum und einem Centroiden:
Single Linkage
Complete Linkage
Average Linkage
Average Group
Linkage
d single  A, B   min d  a, b 
minimaler Abstand zweier
Elemente
dcomplete  A, B   max d  a, b 
maximaler Abstand zweier
Elemente
aA,bB
aA,bB
d average  A, B  
1
AB
d averagegroup  A, B  
aA,bB
1
C

d  x, y 
x , yC ,C  A B
 
Centroid Methode
dcentroid  A, B   d a, b
Ward‘s Methode
d a, b
Prof. Dr. G. Heyer
 d  a, b 
d ward ' s  A, B  
 
1 1

A B
Text Mining – Wissensrohstoff Text
durchschnittlicher Abstand der
Elementepaare
durchschnittlicher Abstand der
Elementepaare der
Vereinigung
Abstand der Mittelwerte
Zunahme der Varianz durch
Vereinigung
17
Clustering
Ähnlichkeit von Clustern
single linkage
elongated
clusters
complete linkage
compact clusters
average linkage
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
18
Clustering
Beispiel Average Linkage
Centroid after
fourth step.
d6
d5
d4
d3
Centroid after
third step.
Centroid after
second step.
d1
d2
Centroid after first step.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
19
Clustering
Aktualisierung von Abständen
single linkage
dist (C1, C2  C3 )  min dist (C1, C2 ), dist (C1, C3 )
complete linkage
dist (C1, C2  C3 )  maxdist (C1, C2 ), dist (C1, C3 )
average linkage

dist (C1, C2  C3 )  dist  C1 , C
Prof. Dr. G. Heyer
C2
2  C3
Text Mining – Wissensrohstoff Text
 C2   C
C3
2  C3

 C3 
20
Clustering
Aufwandsabschätzung
O(n2) Ähnlichkeitsberechnungen pro Zusammenfügungsschritt,
insgesamt O(n3) Ähnlichkeitsberechnungen
Zu komplex für große Textmengen
Approximationen:
Finde den beinahe nächsten Punkt, z.B.
project on k random lines
find closest projections
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
21
Clustering
Nicht-hierarchische Clusteringalgorithmen
•
•
•
arbeiten meist iterativ
initiale Einteilung der Elemente in Cluster wird sukzessive
verbessert
Beispiele: k-means-Clustering, Expectation Maximization (EM)
allgemeines Verfahren
1. Erzeugen einer initialen Clustereinteilung:
Die Anzahl k der zu erzeugenden Cluster wird festgelegt und k
initiale Repräsentanten für die Cluster werden – zufällig oder
durch Vorberechnungen – bestimmt.
2. (Neu-) Zuordnung aller Elemente zu den Clustern anhand der
Clusterrepräsentanten.
3. Berechnung neuer Clusterrepräsentanten anhand der einem
Cluster zugeordneten Elemente.
4. Test einer Abbruchbedingung. Bei Nichterfüllung Gehe zu 2.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
22
Clustering
k-means-Clustering









Initialisierung






erste
Zuordnung

erste Neuberechnung
der
Clusterschwerpunkte


Legende:









zweite Zuordnung




zweite Neuberechnung
der Clusterschwerpunkte
Element
Clusterschwerpunkt
Clustering
k-means-Clustering - Probleme
• Bestimmung der richtigen Anzahl k an Clustern
• Konvergenz ist nicht gesichert
• Erreicht evtl. nur ein lokales Minimum – nicht
unbedingt das globale
 Das Clustering muss nicht optimal sein
Abhilfe: Algorithmus mehrfach starten
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
24
Clustering
Hierarchisches Clustering
• Verfahren erzeugen Hierarchie von Clustern
• arbeiten agglomerativ oder divisiv
agglomerativ (buttom up)
– Anfangszustand: alle Elemente bilden jeweils eigenes Cluster
– Iteration: Verschmelzung der ähnlichsten beiden Cluster zu
neuem Cluster
– nach Ende: Cluster der höchsten Hierarchieebene enthält alle
Elemente
divisiv (top down)
– Anfangszustand: ein Cluster enthält alle Elemente
– Iteration: Teilung des Clusters mit der geringsten Kohärenz
– nach Ende : alle 1-elementigen Cluster der untersten
Hierarchieebene wurden erzeugt
• Beide Algorithmen erzeugen ein Dendrogramm.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
25
Clustering
Darstellung: Dendogramme
• Cluster werden zu Instanzen, die
wieder mit verarbeitet werden
• Cluster können zu größeren
Clustern zusammengefasst
werden
• Zeigt die Beziehungen zwischen
den Clustern mit an
• Eine Analyse führt i.d.R. zu
verschiedenen möglichen
Interpretationen
Wie viele Cluster wurden gefunden?
Clustering
Alternative Darstellung: Topographien
Quelle: Gerik Scheuermann und Patrick Oesterling,
cf. SPP Visual Analytics
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
27
Clustering
Alternative Darstellung: Topographien
Quelle: Gerik Scheuermann und Patrick Oesterling,
cf. SPP Visual Analytics
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
28
Clustering
Alternative Darstellung: Topographien
Quelle: Gerik Scheuermann und Patrick Oesterling,
cf. SPP Visual Analytics
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
29
Clustering
Single-pass-Clustering
•
•
Element für Element wird Clustern zugeteilt, gegebenenfalls
wird neues Cluster erzeugt
1 (schneller) Durchlauf (über die Menge der Elemente)
allgemeines Verfahren
1. initiale Menge der Cluster: leer
2. zufällige Auswahl des nächsten Elements
3. Zuweisung zum ähnlichsten Cluster, wenn Schwellwert
überschritten, sonst Erstellung eines neuen Clusters
4. Wenn noch weitere Elemente vorhanden: gehe zu 2.
Komplexität
O(n*k) Abstandsberechnungen, k Cluster, n Dokumente
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
30
Clustering
buttom up, single linkage - Clustering

c4
c1
c2
c5
c3
jedes Element bildet
ein eigenes Cluster

c4
c8
c4
c1
c2
Initialisierung:
c1
c2

c6
Ähnlichste Cluster c3
und c8 bilden neues
Cluster c9
c4
c1
c2
c3
Ähnlichste Cluster c4
und c5 bilden neues
Cluster c7

c4
c8
c1
c2
c6
c3
Ähnlichste Cluster c1
und c2 bilden neues
Cluster c8
c10
c6
c3

c6
c5 c7
c8
c5 c7
c9
c5 c7
c10
c5 c7

c6
c9
c3
Ähnlichste Cluster c6
und c7 bilden neues
Cluster c10
c4
c8
c1
c2
c9
c3
c5 c7
c6
c11
Ähnlichste Cluster c9
und c10 bilden neues
Cluster c11
Clustering
Dendrogramm
• Darstellung der Analyse als Dendrogramm
• Ähnlichkeit der Cluster ist an der Scala abzulesen
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
32
Clustering
Ziel der Analyse
• sind nicht die Cluster auf der höchsten bzw. niedrigsten
Hierarchieebene
• Finde Kompromiss zwischen möglichst kleiner Clusteranzahl
und möglichst großer Homogenität innerhalb der einzelnen
Cluster
• Interessant sind die mittleren Verarbeitungsschritte, in denen
die geforderte Homogenität in den Clustern noch vorhanden
ist, bei denen aber jede weitere Vereinigung von Clustern zu
sehr inhomogenen Clustern führen würde.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
33
Clustering
Beispiel (ASV Toolbox)
Testdaten
fliegen
Pinguin
Wal
Delphin
Eisbär
Hecht
Pelikan
Huhn
Prof. Dr. G. Heyer
0.2
0.1
0.2
0.0
0.0
3.8
1.5
schwimmen
4.8
4.6
4.8
3.7
4.9
3.3
0.0
laufen
1.8
0.0
0.0
3.6
0.0
1.7
3.5
Text Mining – Wissensrohstoff Text
Lunge
1.0
1.0
1.0
1.0
0.0
1.0
1.0
Kiemen
0.0
0.0
0.0
0.0
1.0
0.0
0.0
34
Clustering
Clusteringtool: L1-Norm + single linkage
Clustering
Clusteringtool: L1-Norm + complete linkage
Clustering
Clusteringtool: L1-Norm + average linkage
Clustering
Clusteringtool: L1-Norm + average group linkage
Clustering
Clusteringtool: L1-Norm + Ward‘s method
Clustering
Clusteringtool: L2-Norm + single linkage
Clustering
Clusteringtool: L2-Norm + complete linkage
Clustering
Chinese Whispers Graph Clustering (C. Biemann)
Explanations
•
D
B
5
8
L4
L2
•
•
A
Nodes have a class and communicate
it to their adjacent nodes
A node adopts one of the majority
class in its neighborhood
Nodes are processed in random order
for some iterations
L1L3
C
L3
6
3
E
L3
Properties
•
•
•
•
•
Prof. Dr. G. Heyer
Time-linear in number of edges: very
efficient
Randomized, non-deterministic
Parameter-free
Numbers of clusters found by
algorithm
Small World graphs converge fast
Text Mining – Wissensrohstoff Text
42
Clustering
Algorithmus
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
43
Clustering
Beispiel – Small Worlds der Antike
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
44
Clustering
Nützliche Links
ASV toolbox
http://wortschatz.uni-leipzig.de/~cbiemann/software/toolbox/index.htm
http://asv.informatik.uni-leipzig.de/asv/21
carot
http://project.carrot2.org/
Lingpipe
http://alias-i.com/lingpipe/
Rapid
http://rapid-i.com/content/view/10/69/lang,en/
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
45
Clustering
Literatur
Baker, D., McCallum, A.K (1998): Distributional clustering of words for
text classification. Proc. SIGIR98.
E.Charniak, Statistical Language Learning, MIT Press: Cambridge (Mass.)
1993
Cutting,D., D. Karger, J. Pedersen, and J. Tukey (1992): Scatter-gather: A
cluster-based approach to browsing large document collections. Proc.
SIGIR'92.
Dhillon, I., "Co-clustering documents and words using bipartite spectral
graph partitioning", ACM Knowledge Discovery Data Mining KDD 01,
pp. 269 – 274
C. Manning und H.Schütze, Foundations of Statistical Natural Language
Processing, MIT Press: Cambridge (Mass.) 1999 (32000)
D.Juravsky, J.Martin, Speech and Language Processing: An Introduction
to Natural Language Processing, Computational Linguistics and
Speech Recognition, Prentice Hall: San Francisco 2000
Sebastiani, F. (2002): Machine Learning in Automated Text Categorization.
ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.
Prof. Dr. G. Heyer
Text Mining – Wissensrohstoff Text
46
Clustering
Literatur 2
Joachims, T., (2002)Learning to Classify Text using Support Vector Machines.
Kluwer.
Hand, D., Mannila, H., Smyth, P. (2001), Principles of Data Mining, MIT Press.
Hastie, T., Tibshirani, R., Friedman, J. (2001): The Elements of Statistical Learning.
Springer Verlag.
Hofmann, T. (2001): Unsupervised Learning by Probabilistic Latent Semantic
Analysis. Machine Learning, Vol. 42, p.177-196.
Hotho,A., A. Nürnberger and G. Paaß (2005): A Brief Survey of Text Mining, GLDVJournal for Computational Linguistics and Language Technology, 20:1, pp: 1962.
Sebastiani, F. (2002): Machine Learning in Automated Text Categorization. ACM
Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.
Shawe-Taylor, J., Cristianini, N. (2004): Kernel Methods for Pattern Analysis.
Cambridge University Press.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New
York.
Vapnik, V. N. and Chervonenkis, A. Y. (1971): On the uniform convergence of relative
frequencies of events to their probabilities. Theory Probab. Apl., 16, 264--280.
Xu, J., W. B. Croft. (1996): Query expansion using local and global document
analysis. In Proc. SIGIR.
Herunterladen