Dichte-basiertes Clustering zur dynamischen und abstrakten Darstellung von großen Netzwerken Klaus Holzapfel Lehrstuhl für Effiziente Algorithmen Fakultät für Informatik an der Technische Universität München Workshop “Webgraphen” – 18. Okt 2002 (Tübingen) 1 Projektübersicht und Ausblick auf das Thema 2 Projekt Grobstruktur Real World Scenarios Models Partitioning Techniques Structural Properties static dynamic 3 Hierarchical Models/Presentations Specialized Algorithms Reale große Netze Beispiele: I I I I Eigenschaften: I I Internet Hyperlinkstruktur des WWW Telefon- und Stromnetzwerke Metabolische Netze Small-World Graphen: • dünne Graphen (d¯ < 20) • geringer Durchmesser (∼ log(|V |)) • Clustertendenz Power-Law Graphen: #degi (G) ∼ i−α 4 α ∈ [2, 4] Umgang mit großen Netzen Probleme: Lösungsansätze: 5 I riesige Datenmengen (|V | ≈ 109 ) I keine globale Struktur I unklare Verbindungsregeln I herkömmliche Algorithmen ungünstig I Abstraktion: • VLSI Design • Transportprobleme • Gruppierungsprobleme I Hierarchisierung I neue Modelle mit Algorithmen Hyperlinkgraph des WWW I kleiner Durchschnittsgrad I Clustertendenz (Communities) I gerichtet, lange Pfade I kein Small-World (klassisch) 7 "deg_1_2000" using (log($1)):(log($2)) 6 5 I Power-Law Verteilung (α ≈ 2.3) 4 3 2 1 0 0 I I 6 Hubs and Authorities Cores Gij in Communities 0.5 1 1.5 2 2.5 3 3.5 4 4.5 Zielsetzung Dynamische Hierarchisierung des WWW mittels Repräsentation durch Web-Communities. Hierarchisches dichtebasiertes Modell von zeitlich variablen Small-World Graphen mit nach PowerLaw verteilten Graden. 7 Anwendung einer solchen Hierarchie WWW-Suche: Fibonacci 8 bisherige Forschungsergebnisse 9 Graphen-Clustering Problem: Input: Output: I I 10 I viele interne Kanten (Dichte) I wenige externe Kanten (Schnitt) I viele kurze Pfade (Zusammenhang) D ENSE k-S UBGRAPH -P ROBLEM Graph G, k ∈ N Subgraph G0 mit maximaler Anzahl von Kanten und genau k Knoten (variables) Entscheidungsproblem N P-vollständig O(n 1 − 3 )-Approximation [Feige, Kortsarz, Peleg, 2001] γ -Dense Subgraph Problem Problem: Input: Output: γ-D ENSE S UBGRAPH P ROBLEM (γ-DSP) Graph G, k ∈ N Gibt es einen Subgraphen G0 mit k Knoten und mindestens γ(k) Kanten? • γ(k) = k 2 • γ(k) = 0 γ-DSP = C LIQUE ∈ N P-c γ-DSP ∈ P Wo liegt der Übergang? 11 Ergebnisse – Übersicht [Asahiro et.al. 2002] [Feige, Seltser 1997] [H et.al. 2002] 12 P N P-c γ(k) = k γ(k) = Θ(k 1+ ) γ(k) = k + k γ(k) = k + O(1) γ(k) = k + Ω(k ) Forschungsideen 13 Grobübersicht Was kommt als nächstes? World Wide Web General Research Detecting Web Communities Density−based Clustering Grouping of Communities Generation of Hierarchies • Trawling the Web for Emerging Cyber Communities [Kumar, Raghavan, Rajagopalan, Tomkins, 1999] WWW8 • An approach to build a cyber-community hierarchy [Krishna Reddy, Kitsuregawa, 2002] Workshop on Web Analytics 14 Hierarchisierung des Web Studentenprojekte: I I Web-Crawler zum Sammeln von Daten Extrahieren von Web Communities Forschungsarbeit: 15 I Begriffsklärung: Dichte in gerichteten Graphen I Aufbau von Web-Hierarchien • Entwickeln von bottom-up Verfahren • Qualitätsaussagen (Approximationsgüte) Zeitlicher Verlauf Integration in eine Hierarchie I Bewertung von neuen Seiten I Anpassen der Hierarchiebeschreibung (qualitativ und quantitativ) I → “Passt die Hierarchie zum Datensatz?” Restrukturierung der Hierarchie I I I 16 Gütekriterien für Hierarchien Nachführungen beim Auflösen bzw. Einfügen von Abstraktionsstufen Qualitätsaussagen nach mehreren Modifikationen