7. Besondere Datentypen und Anwendungen Inhalt dieses Kapitels 7.1 Temporal Data Mining Problemstellung, Sequential Patterns, Modifikation des Apriori-Algorithmus 7.2 Spatial Data Mining Aufgaben und Probleme, typische Methoden, räumliche Charakterisierung und Trenderkennung 7.3 Text- und Web-Mining Aufgaben und Probleme, Clustering von Web-Dokumenten, Suchmaschine mit Berücksichtigung der Linkstruktur, intelligenter Crawler Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 333 7.1 Temporal Data Mining Problemstellung • Analyse von zeitbezogenen Daten • Anwendungen Finanzen: Aktienkurse, Inflationsraten, . . . Medizin: Blutdruck, . . . Meteorologie: Niederschläge, Temperaturen, . . . • ausgezeichnetes Attribut: Punkte oder Abschnitte in einem zeitlichen Bezugssystem impliziert zeitliche Ordnung der Datensätze Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 334 7.1 Temporal Data Mining Problemstellung • zwei Arten von Methoden Analyse zeitlicher Zusammenhänge innerhalb einzelner Abläufe Analyse zeitlicher Zusammenhänge zwischen verschiedenen Abläufen • Besonderheit des Temporal Data Mining komplexe zeitliche Relationen zwischen Zeitpunkten und Zeitintervallen: „während“, „überschneidend“, „direkt aufeinanderfolgend“ . . . neue Typen interessanter Regeln zusätzliche Komplexität der Algorithmen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 335 7.1 Zeitreihen -Analyse Beispiel Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 336 7.1 Zeitreihen-Analyse Komponenten von Zeitreihen [Fahrmeier et al.1999] Trendkomponente langfristige systematische Veränderung Konjunkturkomponente Verlauf von Konjunkturzyklen Saisonalkomponente jahreszeitlich bedingte Schwankungen Restkomponente Irreguläre Veränderungen, zufällig, relativ gering Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 337 7.1 Zeitreihen-Analyse Methoden [Fahrmeier et al.1999] Globale Regression • Auswahl eines Funktionstyps • Schätzung der unbekannten Parameter mit Hilfe der Methode der kleinsten Fehlerquadrate globaler Trend häufig zu grob Lokale Methoden • gleitender Durchschnitt (Moving Window) Glättung • lokale Regression Regressionsfunktion für Umgebung des jeweiligen Punkts Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 338 7.1 Sequential Patterns Motivation • nicht einzelne Transaktionen, sondern Mengen von zusammengehörigen und zeitlich geordneten Sequenzen von Transaktionen • häufige Sequenz: viele Kunden, die zu einem Zeitpunkt Produkte A, B, C eingekauft haben, haben zu einem späteren Zeitpunkt auch die Produkte D, E und F gekauft „5% aller Kunden haben zuerst das Buch Solaris, danach das Buch Transfer und dann Der Futurologische Kongreß gekauft.“ • Anwendung Kunde hat schon Solaris gekauft, bestellt jetzt Transfer: empfehle Der Futurologische Kongreß Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 339 7.1 Sequential Patterns Grundbegriffe [Srikant & Agrawal 1996] • I = {i1, ..., im}: Menge von Literalen, genannt „Items“ • Sequenz s = <s1, ..., sn>: geordnete Liste von Itemsets, si = (x1, ..., xm) lexikographisch geordnet für i = 1, ..., n • <a1, ..., an> ist Untersequenz einer Sequenz <b1, ..., bm>: jedes Element aus <a1, ..., an> Teilmenge eines Elementes aus <b1, ..., bm> unter Beibehaltung der Reihenfolge • A = <a1, ..., an> zusammenhängende Untersequenz von B = <b1, ..., bm>: A Untersequenz von B die Elemente von A sind in aufeinanderfolgenden Elementen von B enthalten Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 340 7.1 Sequential Patterns Grundbegriffe • Beispiel: B = <(1 2), (3 4), (5), (6)> zusammenhängende Untersequenzen von B: <(2), (3 4), (5)>, <(1 2), (3), (5), (6)>, <(3), (5)> Untersequenzen von B, die nicht zusammenhängen: <(1 2), (3 4), (6)>, <(1), (5), (6)> • Datenbank: Menge von Datensequenzen, d.h. zeitlich geordnete Liste von Transaktionen • Transaktion T: Menge von Items, Sequenz-Id(T), Transaktions-Zeit(T) • Support einer Sequenz S in D: Anteil der Datensequenzen in D, die S unterstützen • Datensequenz DS unterstützt eine Sequenz S: S ist Untersequenz von DS Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 341 7.1 Sequential Patterns Support unter Berücksichtigung der exakten Zeitpunkte • Bisher: ein Element si = (x1, ..., xm) einer Sequenz muß von einer einzigen Transaktion der Datensequenz unterstützt werden • Jetzt: mehrere aufeinanderfolgende Transaktionen zählen wie eine einzige, wenn sie zeitlich nahe genug zusammen liegen • Parameter window-size: „Breite“ des Zeitfensters Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 342 7.1 Sequential Patterns Support unter Berücksichtigung der exakten Zeitpunkte • Zeit-Constraints für den zeitlichen Abstand zwischen den Gruppen von Transaktionen, die ein Element einer Sequenz unterstützen • z.B. beim Support der Sequenz <(Solaris), (Transfer)> Datensequenzen nicht berücksichtigen, wo zwischen Kauf von Solaris und Transfer drei Jahre liegen • Parameter min-gap und max-gap Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 343 7.1 Sequential Patterns Algorithmus GSP („Generalized Sequential Patterns“) • gleiche Struktur wie der Apriori-Algorithmus zum Finden von Frequent Itemsets • erster Durchlauf: Bestimmung des Supports für jedes einzelne Item Bildung der häufigen 1-Sequenzen aus einem Element mit einem einzigen Item • folgende Durchläufe: Bildung von Kandidatensequenzen mit k+1 Items aus den im vorhergehenden Durchlauf bestimmten häufigen Sequenzen mit k Items • Zählen des Supports der Kandidaten und Selektion nach gefundenem Support • Modifikationen des Apriori-Algorithmus: Kandidatengenerierung, Zählen des Supports von Kandidaten und Berücksichtigung von Item-Taxonomien Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 344 7.2 Spatial Data Mining Problemstellung • Analyse von raumbezogenen Daten • ausgezeichnetes Attribut: Lage und Ausdehnung in einem 2- oder 3-dimensionalen Raum Punkte, Linien, Polygone, Polyeder • Anwendungen Geographie: Topologische Karten, Thematische Karten, . . . Biologie: Proteine, . . Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 345 7.2 Spatial Data Mining Problemstellung • Aufgaben Analyse von einzelnen räumlichen Verteilungen bestimmter Attribute Analyse von Abhängigkeiten zwischen räumlichen Verteilungen von Attributen • Anwendungen Geo-Marketing Verkehrssteuerung Umweltschutz . . . • Besonderheit des Spatial Data Mining Attribute von Nachbarn beeinflussen ein gegebenes Objekt Einfluß hängt ab von räumlichen Nachbarschaftsbeziehungen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 346 7.2 Spatial Data Mining Basisoperationen zum Spatial Data Mining [Ester, Frommelt, Kriegel & Sander 2000] Räumliche Nachbarschaftsbeziehungen • topologische Beziehungen • Distanzbeziehungen • Richtungsbeziehungen D north A D A disjoint B A overlap B B A contains B B inside A rep(A) A A distance=0 B A distance=c B A distancec B B northeast A C south A B east A, C east A C C southeast A Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 347 7.2 Spatial Data Mining Basisoperationen zum Spatial Data Mining • neighbor: Nachbarschaftsbeziehung • DB Objects: Datenbank • Nachbarschaftsgraph GDBneighbor: Graph (N,E) mit N @ DB und (n1,n2) E n1 neighbor n2 • Nachbarschaftspfad: Pfad in einem Nachbarschaftsgraphen • Operationen auf Nachbarschaftsgraphen und -pfaden: neighbors: Ngraphs x Objects 2Objects extensions: Ngraphs x 2NPaths x Int 2NPaths Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 348 7.2 Clustering und Erklärung der Cluster Überblick [Knorr & Ng 1996] xx x Primary School x x Cluster1 x x x x x x xx x X teures Haus Cluster2 High School x x x x College Cluster3 Cluster teurer Häuser 1. Clustering der Objekte beliebiger Clustering-Algorithmus 2. „Erklärung“ der Cluster durch die Nachbarschaft Klassifikationsproblem Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 349 7.2 Clustering und Erklärung der Cluster Erklärung der Cluster Bestimmung der Nachbarschaft jedes Clusters • Input: ein Cluster von Punkten • Output: Liste der k nächstgelegenen Objekte Bestimmung gemeinsamer Objekttypen in den Nachbarschaften • Input: n Listen von je k nächstgelegenen Objekten (je eine pro Cluster) • Output: Objekttypen, die in allen oder in den meisten Nachbarschaften der n Cluster auftreten Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 350 7.2 Clustering und Erklärung der Cluster Bestimmung der Nachbarschaft eines Clusters Distanzfunktionen • Distanz zwischen den Zentren berücksichtigt nicht die Form und die Größe • Distanz zwischen den Rändern berücksichtigt nicht die Verteilung der Punkte im Cluster x x x x x xxx GolfCourse x x xx x x School x x x x x xx x Sportsx xxx x groun x x d xx x x Park x x xx Cluster • gewichtete Summe der Distanzen der Punkte des Clusters zum Rand des Objekts hoher Aufwand zur Berechnung dieser Distanzfunktion Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 351 7.2 Clustering und Erklärung der Cluster Bestimmung gemeinsamer Objekttypen Maße der Gemeinsamkeit • Objekttyp tritt in der Nachbarschaft von mindestens m (m n) Clustern auf • Summe der invertierten Ränge der Objekttypen in den Nachbarschaftslisten • Kombiniertes Maß Problem • wenn m n: Menge der gemeinsamen Objekttypen evtl. leer • deshalb: Generalisierung der gemeinsamen Objekttypen • Beispiel einer Erklärung: „teure Häuser haben meist eine Schule in ihrer Nachbarschaft“ Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 352 7.2 Räumliche Charakterisierung und Trenderkennung Überblick [Ester, Frommelt, Kriegel & Sander 1998] Räumliche Charakterisierung • verwandt mit „Proximity Analysis“ (Erklärung der Cluster) • bisher: nur für Cluster jetzt: für beliebige räumliche Objekte • Charaktersierung nicht nur durch Objekttypen sondern auch (nichträumliche) Attribute von Nachbarn Räumliche Trenderkennung • Bezug zur Zeitreihen-Analyse • hier: Analyse „räumlicher Reihen“ Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 353 7.2 Räumliche Charakterisierung Grundbegriffe • targets DB: Menge ausgezeichneter Objekte aus der Datenbank • Eigenschaft: (Attribut, Wert) oder (“Typ”, konkreter Objekttyp) • Häufigkeitsfaktor von prop in Bezug auf targets und DB: f prop frequency prop targets cardinality targets frequency prop DB cardinality DB significance Attribut frequencyprop(DB) / card(DB) Attribut frequencyprop(targets) / card(targets) Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 Attribut f(prop) 354 7.2 Räumliche Charakterisierung Grundbegriffe • prop charakterisiert targets: f(prop) significance oder f(prop) 1/significance • Bisher nicht-räumliche Charaktersisierung • Räumliche Charakterisierung Berücksichtigung der Nachbarn der targets, die durch max-step Kanten eines Nachbarschaftsgraphen GDBneighbor erreichbar sind Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 355 7.2 Räumliche Charakterisierung Grundbegriffe • Aufgabe finde alle Eigenschaften prop und ganze Zahlen s max-step mit 1) prop charakterisiert targets mit s Erweiterungen in GDBneighbor 2) prop charakterisiert mindestens proportion viele t targets mit s Erweiterungen in GDBneighbor t1 Target Berg Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 356 7.2 Räumliche Charakterisierung Beispiel GIS Bayern Target Gemeinde mit „Rentneranteil = hoch“ Wohnungen pro Gebäude = sehr niedrig (i = 0, f(prop) = 9.1) Auslnderanteil = sehr niedrig i = 0, f(prop) = 8.9 Akademikeranteil = mittel (i = 0, f(prop) = 6.3) ... Objekttyp = Berg (i = 3, f(prop) = 4.1) Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 357 7.2 Räumliche Trenderkennung Grundbegriffe • räumlicher Trend regelmäßige Änderung von nicht-räumlichen Attributen in der Nachbarschafts eines bestimmten Startobjekts • Regressionsanalyse zum Bestimmen solcher Trends unabhängiges Attribut: räumliche Distanz zum Startobjekt abhängige Attribute: Differenzen der nicht-räumlichen Attributwerte Differenz Distanz (a) positiver Trend Differenz . .. Differenz . . . . . .. . Distanz (b) negativer Trend .. .. ....... . Distanz (c) kein Trend Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 358 7.2 Räumliche Trenderkennung Grundbegriffe • Input Nachbarschaftsgraph G, Objekt O, Menge von Attributen a, ganze Zahlen min-length und max-length, relle Zahl min-conf • Output Menge aller Nachbarschaftspfade in G der spezifizierten Länge mit Startobjekt O, die einen Trend in a besitzen mit einer Korrelation von mindestens min-conf • Methoden – Finden globaler räumlicher Trends – Finden lokaler räumlicher Trends Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 359 7.2 Räumliche Trenderkennung Methoden Finden globaler Trends erzeuge alle Pfade derselben Länge Finden lokaler Trends erzeuge einen Pfad mit Länge max-length Regressionsanalyse auf dieser Menge Regressionsanalyse auf diesem Pfad Erweiterung aller Pfade Erzeugung des nächsten Pfades um eine Kante mit Länge max-length eine Menge von Pfaden zwei Mengen von Pfaden mit einem signifikanten Trend (positive und negative Trends) Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 360 7.2 Räumliche Trenderkennung Beispiel globaler Trend lokale Trends GIS Bayern a: Durchschnittsmiete, O: Regensburg fallende Attributwerte Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 361 7.3 Text- und Web-Mining Problemstellung • Analyse von Text- und Hypertext-Daten sowie ihrer Benutzung • Anwendungen elektronische Mails einer Firma Newsgroup-Artikel Webseiten aus dem Internet oder dem Intranet einer Firma • Text- und Hypertext-Daten Text Präsentation Inhalt Hyper-Links Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 362 7.3 Text- und Web-Mining Problemstellung • Text Transformation eines Dokuments D in Vektor r(D) = (h1, ..., hd) hi 0: die Häufigkeit des Terms ti in D Reduktion der Anzahl der Terme Stop-Listen, Stemming, Entfernen besonders häufiger bzw. seltener Terme • Präsentation (HTML) <h1> Bibliography </h1> <p> <i>Knowledge Discovery in Databases</i>, Ester, Sander <br> Springer-Verlag, 2000. </p> ... Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 363 7.3 Text- und Web-Mining Problemstellung • Inhalt (XML) <bibliography> <book> <title> Knowledge Discovery in Databases </title> <author> Ester </author> <author> Sander </author> <publisher> Springer-Verlag </publisher> <year> 2000 </year> </book> ... </bibliography> • Hyper-Links Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 364 7.3 Text- und Web-Mining Problemstellung • Aufgaben Analyse von Inhalt und Struktur von Hypertext-Dokumenten Analyse der Link-Struktur einer Menge von Hypertext-Dokumenten Analyse der Benutzung einer Menge von Hypertext-Dokumenten • Besonderheit des Text- und Web-Mining Diversität des Vokabulars, z.B. verschiedene Sprachen Vagheit der Texte Unterschiedliche Qualität der Texte Link-Struktur Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 365 7.3 Clustering der Antwortmengen von Suchmaschinen Motivation • Ergebnisse von Web-Suchmaschinen im allgemeinen in Form einer Liste • Probleme Antwortlisten typischerweise sehr lang viele Terme treten in ganz verschiedenen Kontexten auf sehr unübersichtliche Darstellung z.B. „Cluster“: Datenanalyse, Rechnernetze, Astronomie, . . . • Ziel Clustering der Antwortmengen nach Kontexten Browsen des Clustering statt der Antwortliste Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 366 7.3 Clustering der Antwortmengen von Suchmaschinen Suffix-Tree-Clustering [Zamir & Etzioni 1998] • Ähnlichkeit von Texten nicht Ähnlichkeitsmaß für Featurevektoren sondern gemeinsames Vorkommen von Termen • Stärken des Suffix-Tree-Clustering (STC) Effizienz: Laufzeit O(n) für n Dokumente Inkrementalität: Dokumente müssen nicht alle anfangs vorhanden sein Überlappung der Cluster Clusterbeschreibung: einfach und leicht verständlich • Ablauf des STC 1. Datenvorbereitung 2. Identifikation von Basisclustern 3. Kombination von Basisclustern Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 367 7.3 Clustering der Antwortmengen von Suchmaschinen Suffix-Tree-Clustering Datenvorbereitung • Entfernen von HTML-Tags, Zahlen und Satzzeichen • Stemming Identifikation von Basisclustern • Basiscluster: Menge von Dokumenten, die eine Phrase gemeinsam haben • Phrase: Mehrwort-Term • Wichtigkeit eines Basisclusters: Produkt aus Anzahl der Dokumente im Cluster und Anzahl der Wörter in der beschreibenden Phrase • Identifikation der Basiscluster durch Aufbau eines Suffix-Baums Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 368 7.3 Clustering der Antwortmengen von Suchmaschinen Suffix-Baum Suffix-Baum für eine Menge von Strings S: Baum mit den Eigenschaften • Jeder innere Knoten hat mindestens 2 Söhne. • Beschriftung der Kanten: nicht-leerer Teilstring eines Strings aus S Beschriftung eines Knotens: Konkatenation aller Kanten auf dem Pfad von der Wurzel zu diesem Knoten • Die Beschriftungen aller von einem Knoten ausgehenden Kanten beginnen mit verschiedenen Wörtern. • Für jedes Suffix s eines jeden Strings aus S existiert auch ein Knoten im Baum mit der Beschriftung s. Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 369 7.3 Clustering der Antwortmengen von Suchmaschinen Beispiel cat ate cheese cheese ate cheese Einfügen von (1) „cat ate cheese“ 1, 1 1, 3 1, 2 2, 4 too cat ate cheese ate cheese cheese Einfügen von (2) „mouse ate cheese too“ 1, 1 1, 2 too 2, 2 1, 3 too mouse ate cheese too 2, 1 2, 3 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 370 7.3 Clustering der Antwortmengen von Suchmaschinen Kombination von Basisclustern • viele überlappende Basiscluster • Basiscluster mit hoher Überlappung werden verschmolzen • Ähnlichkeitsmaß zwischen zwei Basisclustern A und B: gleich 1, wenn sowohl |A B| / |A| > 0,5 als auch |A B| / |B| > 0,5 sonst gleich 0 • Basiscluster-Graph: Knoten: Basiscluster Kante genau dann, wenn die Knoten eine Ähnlichkeit von 1 besitzen • zusammengesetzter Cluster: Zusammenhangskomponente im Basiscluster-Graphen enthält die Vereinigung all seiner Basiscluster Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 371 7.3 Clustering der Antwortmengen von Suchmaschinen Beispiel Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 372 7.3 Intelligenter Web-Crawler Motivation Probleme der Web-Suchmaschinen • indizieren höchstens 30% aller Webseiten • Antworten sind oft veraltet • liefern oft zu viele (uninteressante) Antworten schlechter Recall und schlechte Precision Ansatz eines intelligenten (fokussierten) Crawlers • miteinander verlinkte Webdokumente besitzen häufig ähnliche Themen • arbeitet nicht mit einem relativ statischen Index • startet von vorgegebenen interessanten Webdokumenten, untersucht die jeweils durch Links erreichbaren Nachbardokumente Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 373 7.3 Intelligenter Web-Crawler Ablauf [Chakrabarti, Berg & Dom 1999] • Manuelle Spezifikation der interessanten Themen Angabe einer Menge von interessanten Webseiten (Trainingsseiten) • Interaktives Lernen eines Klassifikators aus den Trainingsseiten um weitere Webseiten als „interessant“ / „uninteressant“ zu klassifizieren Klassifikator kann vom Benutzer korrigiert werden • Automatischer Crawl Start bei den Trainingsdokumenten verfolgt die Links zu den Nachbardokumenten gefundene Webseiten werden klassifiziert: „interessant“: Antwort und Ausgangspunkt für weitere Suche „uninteressant“: Ende der Suche Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 374 7.3 Intelligenter Web-Crawler Klassifikator • Gegeben: Taxonomie und Menge von Trainingsseiten • Gesucht: die Klassen der Taxonomie, in die die Trainingsseiten am besten passen. • Merkierung einer Teilmenge dieser Klassen als „interessant“ durch den Benutzer • Vorschlag von weiteren Webseiten aus der Nachbarschaft der Trainingsseiten durch das System • Lernen des endgültigen Klassifikators von der endgültigen Menge von Trainingsseiten Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 375 7.3 Intelligenter Web-Crawler Klassifikator Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 376 7.3 Intelligenter Web-Crawler Distiller • Gegeben: die von einer „interessanten“ Webseite ausgehenden Links • Gesucht: Reihenfolge, in der diese Links verfolgt werden sollen • Beispiele Seite mit viel Text ist sehr relevant, enthält aber keine Links „Sackgasse“ Seite enthält evtl. wenig Text, aber viele gute Links „Hub“ • Methode wähle erst Webseiten mit hohem Page Rank bzw. hohem Authorative Rank und Hub Rank Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 377 7.3 Intelligenter Web-Crawler Page Acquisition Rate (Precision) Distiller Zeit Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 378