Kein Folientitel

Werbung
7. Besondere Datentypen und Anwendungen
Inhalt dieses Kapitels
7.1 Temporal Data Mining
Problemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus
7.2 Spatial Data Mining
Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und
Trenderkennung
7.3 Text- und Web-Mining
Aufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mit
Berücksichtigung der Linkstruktur, intelligenter Crawler
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
333
7.1 Temporal Data Mining
Problemstellung
• Analyse von zeitbezogenen Daten
• Anwendungen
Finanzen: Aktienkurse, Inflationsraten, . . .
Medizin: Blutdruck, . . .
Meteorologie: Niederschläge, Temperaturen, . . .
• ausgezeichnetes Attribut:
Punkte oder Abschnitte in einem zeitlichen Bezugssystem
impliziert zeitliche Ordnung der Datensätze
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
334
7.1 Temporal Data Mining
Problemstellung
• zwei Arten von Methoden
Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe
Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen
• Besonderheit des Temporal Data Mining
komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen:
„während“, „überschneidend“, „direkt aufeinanderfolgend“ . . .
neue Typen interessanter Regeln
zusätzliche Komplexität der Algorithmen
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
335
7.1 Zeitreihen -Analyse
Beispiel
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
336
7.1 Zeitreihen-Analyse
Komponenten von Zeitreihen [Fahrmeier et al.1999]
Trendkomponente
langfristige systematische Veränderung
Konjunkturkomponente
Verlauf von Konjunkturzyklen
Saisonalkomponente
jahreszeitlich bedingte Schwankungen
Restkomponente
Irreguläre Veränderungen, zufällig, relativ gering
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
337
7.1 Zeitreihen-Analyse
Methoden [Fahrmeier et al.1999]
Globale Regression
• Auswahl eines Funktionstyps
• Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten
Fehlerquadrate
globaler Trend häufig zu grob
Lokale Methoden
• gleitender Durchschnitt (Moving Window)
Glättung
• lokale Regression
Regressionsfunktion für Umgebung des jeweiligen Punkts
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
338
7.1 Sequential Patterns
Motivation
• nicht einzelne Transaktionen, sondern Mengen von zusammengehörigen
und zeitlich geordneten Sequenzen von Transaktionen
• häufige Sequenz:
viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben,
haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft
„5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer
und dann Der Futurologische Kongreß gekauft.“
• Anwendung
Kunde hat schon Solaris gekauft, bestellt jetzt Transfer:
empfehle Der Futurologische Kongreß
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
339
7.1 Sequential Patterns
Grundbegriffe
[Srikant & Agrawal 1996]
• I = {i1, ..., im}: Menge von Literalen, genannt „Items“
• Sequenz s = <s1, ..., sn>:
geordnete Liste von Itemsets,
si = (x1, ..., xm) lexikographisch geordnet für i = 1, ..., n
• <a1, ..., an> ist Untersequenz einer Sequenz <b1, ..., bm>:
jedes Element aus <a1, ..., an> Teilmenge eines Elementes aus <b1, ..., bm>
unter Beibehaltung der Reihenfolge
• A = <a1, ..., an> zusammenhängende Untersequenz von B = <b1, ..., bm>:
A Untersequenz von B
die Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
340
7.1 Sequential Patterns
Grundbegriffe
• Beispiel: B = <(1 2), (3 4), (5), (6)>
zusammenhängende Untersequenzen von B:
<(2), (3 4), (5)>, <(1 2), (3), (5), (6)>, <(3), (5)>
Untersequenzen von B, die nicht zusammenhängen:
<(1 2), (3 4), (6)>, <(1), (5), (6)>
• Datenbank:
Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen
• Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T)
• Support einer Sequenz S in D:
Anteil der Datensequenzen in D, die S unterstützen
• Datensequenz DS unterstützt eine Sequenz S:
S ist Untersequenz von DS
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
341
7.1 Sequential Patterns
Support unter Berücksichtigung der exakten Zeitpunkte
• Bisher:
ein Element si = (x1, ..., xm) einer Sequenz muß von einer einzigen
Transaktion der Datensequenz unterstützt werden
• Jetzt:
mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige,
wenn sie zeitlich nahe genug zusammen liegen
• Parameter window-size:
„Breite“ des Zeitfensters
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
342
7.1 Sequential Patterns
Support unter Berücksichtigung der exakten Zeitpunkte
• Zeit-Constraints
für den zeitlichen Abstand zwischen den Gruppen von Transaktionen,
die ein Element einer Sequenz unterstützen
• z.B. beim Support der Sequenz <(Solaris), (Transfer)> Datensequenzen nicht
berücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen
• Parameter min-gap und max-gap
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
343
7.1 Sequential Patterns
Algorithmus GSP („Generalized Sequential Patterns“)
• gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets
• erster Durchlauf:
Bestimmung des Supports für jedes einzelne Item
Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item
• folgende Durchläufe:
Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden
Durchlauf bestimmten häufigen Sequenzen mit k Items
• Zählen des Supports der Kandidaten und Selektion nach gefundenem Support
• Modifikationen des Apriori-Algorithmus:
Kandidatengenerierung, Zählen des Supports von Kandidaten
und Berücksichtigung von Item-Taxonomien
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
344
7.2 Spatial Data Mining
Problemstellung
• Analyse von raumbezogenen Daten
• ausgezeichnetes Attribut:
Lage und Ausdehnung in einem
2- oder 3-dimensionalen Raum
Punkte, Linien, Polygone, Polyeder
• Anwendungen
Geographie: Topologische Karten,
Thematische Karten, . . .
Biologie: Proteine, . .
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
345
7.2 Spatial Data Mining
Problemstellung
• Aufgaben
Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute
Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen
• Anwendungen
Geo-Marketing
Verkehrssteuerung
Umweltschutz . . .
• Besonderheit des Spatial Data Mining
Attribute von Nachbarn beeinflussen ein gegebenes Objekt
Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
346
7.2 Spatial Data Mining
Basisoperationen zum Spatial Data Mining
[Ester, Frommelt, Kriegel & Sander 2000]
Räumliche Nachbarschaftsbeziehungen
• topologische Beziehungen
• Distanzbeziehungen
• Richtungsbeziehungen
D north A
D
A disjoint B
A overlap B
B
A contains B
B inside A
rep(A)
A
A distance=0 B A distance=c B
A distancec B
B northeast A
C south A
B east A,
C east A
C
C southeast A
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
347
7.2 Spatial Data Mining
Basisoperationen zum Spatial Data Mining
• neighbor: Nachbarschaftsbeziehung
• DB  Objects: Datenbank
• Nachbarschaftsgraph GDBneighbor: Graph (N,E) mit
N @ DB und
(n1,n2)  E  n1 neighbor n2
• Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen
• Operationen auf Nachbarschaftsgraphen und -pfaden:
neighbors: Ngraphs x Objects  2Objects
extensions: Ngraphs x 2NPaths x Int 2NPaths
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
348
7.2 Clustering und Erklärung der Cluster
Überblick [Knorr & Ng 1996]
xx
x Primary School
x x
Cluster1
x
x x
x
x x
xx x
X teures Haus
Cluster2
High School
x
x
x
x
College
Cluster3
Cluster teurer Häuser
1. Clustering der Objekte
beliebiger Clustering-Algorithmus
2. „Erklärung“ der Cluster durch die Nachbarschaft
Klassifikationsproblem
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
349
7.2 Clustering und Erklärung der Cluster
Erklärung der Cluster
Bestimmung der Nachbarschaft jedes Clusters
• Input: ein Cluster von Punkten
• Output: Liste der k nächstgelegenen Objekte
Bestimmung gemeinsamer Objekttypen in den Nachbarschaften
• Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster)
• Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der
n Cluster auftreten
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
350
7.2 Clustering und Erklärung der Cluster
Bestimmung der Nachbarschaft eines Clusters
Distanzfunktionen
• Distanz zwischen den Zentren
berücksichtigt nicht die
Form und die Größe
• Distanz zwischen den Rändern
berücksichtigt nicht die
Verteilung der Punkte im Cluster
x x x x x
xxx
GolfCourse
x
x xx x
x
School x x x x
x
xx x
Sportsx
xxx
x
groun
x
x
d
xx
x
x
Park
x
x
xx
Cluster
• gewichtete Summe der Distanzen der Punkte
des Clusters zum Rand des Objekts
hoher Aufwand zur Berechnung dieser Distanzfunktion
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
351
7.2 Clustering und Erklärung der Cluster
Bestimmung gemeinsamer Objekttypen
Maße der Gemeinsamkeit
• Objekttyp tritt in der Nachbarschaft von mindestens m (m  n) Clustern auf
• Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten
• Kombiniertes Maß
Problem
• wenn m  n: Menge der gemeinsamen Objekttypen evtl. leer
• deshalb: Generalisierung der gemeinsamen Objekttypen
• Beispiel einer Erklärung:
„teure Häuser haben meist eine Schule in ihrer Nachbarschaft“
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
352
7.2 Räumliche Charakterisierung und Trenderkennung
Überblick [Ester, Frommelt, Kriegel & Sander 1998]
Räumliche Charakterisierung
• verwandt mit „Proximity Analysis“ (Erklärung der Cluster)
• bisher: nur für Cluster
jetzt: für beliebige räumliche Objekte
• Charaktersierung nicht nur durch Objekttypen
sondern auch (nichträumliche) Attribute von Nachbarn
Räumliche Trenderkennung
• Bezug zur Zeitreihen-Analyse
• hier: Analyse „räumlicher Reihen“
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
353
7.2 Räumliche Charakterisierung
Grundbegriffe
• targets  DB: Menge ausgezeichneter Objekte aus der Datenbank
• Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp)
• Häufigkeitsfaktor von prop in Bezug auf targets und DB:
f  prop 
frequency prop  targets
cardinality targets
frequency prop  DB
cardinality DB
significance
Attribut
frequencyprop(DB) / card(DB)
Attribut
frequencyprop(targets) / card(targets)
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
Attribut
f(prop)
354
7.2 Räumliche Charakterisierung
Grundbegriffe
• prop charakterisiert targets:
f(prop)  significance
oder f(prop)  1/significance
• Bisher
nicht-räumliche Charaktersisierung
• Räumliche Charakterisierung
Berücksichtigung der Nachbarn der targets, die durch max-step Kanten
eines Nachbarschaftsgraphen GDBneighbor erreichbar sind
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
355
7.2 Räumliche Charakterisierung
Grundbegriffe
• Aufgabe
finde alle Eigenschaften prop und ganze Zahlen s max-step mit
1) prop charakterisiert targets mit s Erweiterungen in GDBneighbor
2) prop charakterisiert mindestens proportion viele t  targets mit s
Erweiterungen in GDBneighbor
t1
Target
Berg
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
356
7.2 Räumliche Charakterisierung
Beispiel
GIS
Bayern
Target
Gemeinde mit „Rentneranteil = hoch“ 
Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1)
Auslnderanteil = sehr niedrig i = 0, f(prop) = 8.9
Akademikeranteil = mittel (i = 0, f(prop) = 6.3) 
...
Objekttyp = Berg (i = 3, f(prop) = 4.1)
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
357
7.2 Räumliche Trenderkennung
Grundbegriffe
• räumlicher Trend
regelmäßige Änderung von nicht-räumlichen Attributen
in der Nachbarschafts eines bestimmten Startobjekts
• Regressionsanalyse zum Bestimmen solcher Trends
unabhängiges Attribut: räumliche Distanz zum Startobjekt
abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte
Differenz
Distanz
(a) positiver Trend
Differenz
.
..
Differenz
.
.
.
.
.
..
.
Distanz
(b) negativer Trend
..
.. .......
.
Distanz
(c) kein Trend
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
358
7.2 Räumliche Trenderkennung
Grundbegriffe
• Input
Nachbarschaftsgraph G, Objekt O, Menge von Attributen a,
ganze Zahlen min-length und max-length, relle Zahl min-conf
• Output
Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt
O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf
• Methoden
– Finden globaler räumlicher Trends
– Finden lokaler räumlicher Trends
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
359
7.2 Räumliche Trenderkennung
Methoden
Finden globaler Trends
erzeuge alle Pfade derselben Länge
Finden lokaler Trends
erzeuge einen Pfad mit Länge max-length
Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad
Erweiterung aller Pfade
Erzeugung des nächsten Pfades
um eine Kante
mit Länge max-length
eine Menge von Pfaden
zwei Mengen von Pfaden
mit einem signifikanten Trend
(positive und negative Trends)
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
360
7.2 Räumliche Trenderkennung
Beispiel
globaler Trend
lokale Trends
GIS
Bayern
a: Durchschnittsmiete, O: Regensburg
fallende Attributwerte
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
361
7.3 Text- und Web-Mining
Problemstellung
• Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung
• Anwendungen
elektronische Mails einer Firma
Newsgroup-Artikel
Webseiten aus dem Internet oder dem Intranet einer Firma
• Text- und Hypertext-Daten
Text
Präsentation
Inhalt
Hyper-Links
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
362
7.3 Text- und Web-Mining
Problemstellung
• Text
Transformation eines Dokuments D in Vektor r(D) = (h1, ..., hd)
hi  0: die Häufigkeit des Terms ti in D
Reduktion der Anzahl der Terme
Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme
• Präsentation (HTML)
<h1> Bibliography </h1>
<p> <i>Knowledge Discovery in Databases</i>,
Ester, Sander <br>
Springer-Verlag, 2000. </p>
...
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
363
7.3 Text- und Web-Mining
Problemstellung
• Inhalt (XML)
<bibliography> <book> <title> Knowledge Discovery in Databases </title>
<author> Ester </author> <author> Sander </author>
<publisher> Springer-Verlag </publisher>
<year> 2000 </year>
</book>
...
</bibliography>
• Hyper-Links
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
364
7.3 Text- und Web-Mining
Problemstellung
• Aufgaben
Analyse von Inhalt und Struktur von Hypertext-Dokumenten
Analyse der Link-Struktur einer Menge von Hypertext-Dokumenten
Analyse der Benutzung einer Menge von Hypertext-Dokumenten
• Besonderheit des Text- und Web-Mining
Diversität des Vokabulars, z.B. verschiedene Sprachen
Vagheit der Texte
Unterschiedliche Qualität der Texte
Link-Struktur
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
365
7.3 Clustering der Antwortmengen von Suchmaschinen
Motivation
• Ergebnisse von Web-Suchmaschinen
im allgemeinen in Form einer Liste
• Probleme
Antwortlisten typischerweise sehr lang
viele Terme treten in ganz verschiedenen Kontexten auf
sehr unübersichtliche Darstellung
z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie, . . .
• Ziel
Clustering der Antwortmengen nach Kontexten
Browsen des Clustering statt der Antwortliste
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
366
7.3 Clustering der Antwortmengen von Suchmaschinen
Suffix-Tree-Clustering [Zamir & Etzioni 1998]
• Ähnlichkeit von Texten
nicht Ähnlichkeitsmaß für Featurevektoren
sondern gemeinsames Vorkommen von Termen
• Stärken des Suffix-Tree-Clustering (STC)
Effizienz: Laufzeit O(n) für n Dokumente
Inkrementalität: Dokumente müssen nicht alle anfangs vorhanden sein
Überlappung der Cluster
Clusterbeschreibung: einfach und leicht verständlich
• Ablauf des STC
1. Datenvorbereitung
2. Identifikation von Basisclustern
3. Kombination von Basisclustern
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
367
7.3 Clustering der Antwortmengen von Suchmaschinen
Suffix-Tree-Clustering
Datenvorbereitung
• Entfernen von HTML-Tags, Zahlen und Satzzeichen
• Stemming
Identifikation von Basisclustern
• Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben
• Phrase: Mehrwort-Term
• Wichtigkeit eines Basisclusters:
Produkt aus Anzahl der Dokumente im Cluster
und Anzahl der Wörter in der beschreibenden Phrase
• Identifikation der Basiscluster durch Aufbau eines Suffix-Baums
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
368
7.3 Clustering der Antwortmengen von Suchmaschinen
Suffix-Baum
Suffix-Baum für eine Menge von Strings S:
Baum mit den Eigenschaften
• Jeder innere Knoten hat mindestens 2 Söhne.
• Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S
Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfad
von der Wurzel zu diesem Knoten
• Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen
mit verschiedenen Wörtern.
• Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im
Baum mit der Beschriftung s.
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
369
7.3 Clustering der Antwortmengen von Suchmaschinen
Beispiel
cat ate cheese
cheese
ate cheese
Einfügen von (1) „cat ate cheese“
1, 1
1, 3
1, 2
2, 4
too
cat ate cheese
ate cheese cheese
Einfügen von (2) „mouse ate cheese too“
1, 1
1, 2
too
2, 2
1, 3
too
mouse ate cheese too
2, 1
2, 3
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
370
7.3 Clustering der Antwortmengen von Suchmaschinen
Kombination von Basisclustern
• viele überlappende Basiscluster
• Basiscluster mit hoher Überlappung werden verschmolzen
• Ähnlichkeitsmaß zwischen zwei Basisclustern A und B:
gleich 1, wenn sowohl |A  B| / |A| > 0,5 als auch |A  B| / |B| > 0,5
sonst gleich 0
• Basiscluster-Graph:
Knoten: Basiscluster
Kante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen
• zusammengesetzter Cluster:
Zusammenhangskomponente im Basiscluster-Graphen
enthält die Vereinigung all seiner Basiscluster
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
371
7.3 Clustering der Antwortmengen von Suchmaschinen
Beispiel
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
372
7.3 Intelligenter Web-Crawler
Motivation
Probleme der Web-Suchmaschinen
• indizieren höchstens 30% aller Webseiten
• Antworten sind oft veraltet
• liefern oft zu viele (uninteressante) Antworten
schlechter Recall und schlechte Precision
Ansatz eines intelligenten (fokussierten) Crawlers
• miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen
• arbeitet nicht mit einem relativ statischen Index
• startet von vorgegebenen interessanten Webdokumenten,
untersucht die jeweils durch Links erreichbaren Nachbardokumente
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
373
7.3 Intelligenter Web-Crawler
Ablauf [Chakrabarti, Berg & Dom 1999]
• Manuelle Spezifikation der interessanten Themen
Angabe einer Menge von interessanten Webseiten (Trainingsseiten)
• Interaktives Lernen eines Klassifikators
aus den Trainingsseiten
um weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizieren
Klassifikator kann vom Benutzer korrigiert werden
• Automatischer Crawl
Start bei den Trainingsdokumenten
verfolgt die Links zu den Nachbardokumenten
gefundene Webseiten werden klassifiziert:
„interessant“: Antwort und Ausgangspunkt für weitere Suche
„uninteressant“: Ende der Suche
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
374
7.3 Intelligenter Web-Crawler
Klassifikator
• Gegeben:
Taxonomie und Menge von Trainingsseiten
• Gesucht:
die Klassen der Taxonomie, in die die Trainingsseiten am besten passen.
• Merkierung einer Teilmenge dieser Klassen als „interessant“
durch den Benutzer
• Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten
durch das System
• Lernen des endgültigen Klassifikators
von der endgültigen Menge von Trainingsseiten
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
375
7.3 Intelligenter Web-Crawler
Klassifikator
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
376
7.3 Intelligenter Web-Crawler
Distiller
• Gegeben:
die von einer „interessanten“ Webseite ausgehenden Links
• Gesucht:
Reihenfolge, in der diese Links verfolgt werden sollen
• Beispiele
Seite mit viel Text ist sehr relevant, enthält aber keine Links
„Sackgasse“
Seite enthält evtl. wenig Text, aber viele gute Links
„Hub“
• Methode
wähle erst Webseiten mit hohem Page Rank
bzw. hohem Authorative Rank und Hub Rank
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
377
7.3 Intelligenter Web-Crawler
Page
Acquisition
Rate
(Precision)
Distiller
Zeit
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001
378
Herunterladen