Dichte-basiertes Clustering zur dynamischen und abstrakten

Werbung
Dichte-basiertes Clustering zur
dynamischen und abstrakten
Darstellung von großen Netzwerken
Klaus Holzapfel
Lehrstuhl für Effiziente Algorithmen
Fakultät für Informatik an der Technische Universität München
Workshop “Webgraphen” – 18. Okt 2002 (Tübingen)
1
Projektübersicht und Ausblick auf das Thema
2
Projekt Grobstruktur
Real World
Scenarios
Models
Partitioning
Techniques
Structural Properties
static
dynamic
3
Hierarchical
Models/Presentations
Specialized
Algorithms
Reale große Netze
Beispiele:
I
I
I
I
Eigenschaften:
I
I
Internet
Hyperlinkstruktur des WWW
Telefon- und Stromnetzwerke
Metabolische Netze
Small-World Graphen:
• dünne Graphen (d¯ < 20)
• geringer Durchmesser (∼ log(|V |))
• Clustertendenz
Power-Law Graphen:
#degi (G) ∼ i−α
4
α ∈ [2, 4]
Umgang mit großen Netzen
Probleme:
Lösungsansätze:
5
I
riesige Datenmengen (|V | ≈ 109 )
I
keine globale Struktur
I
unklare Verbindungsregeln
I
herkömmliche Algorithmen ungünstig
I
Abstraktion:
• VLSI Design
• Transportprobleme
• Gruppierungsprobleme
I
Hierarchisierung
I
neue Modelle mit Algorithmen
Hyperlinkgraph des WWW
I
kleiner Durchschnittsgrad
I
Clustertendenz (Communities)
I
gerichtet, lange Pfade
I
kein Small-World (klassisch)
7
"deg_1_2000" using (log($1)):(log($2))
6
5
I
Power-Law Verteilung (α ≈ 2.3)
4
3
2
1
0
0
I
I
6
Hubs and Authorities
Cores Gij in Communities
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Zielsetzung
Dynamische Hierarchisierung des WWW mittels
Repräsentation durch Web-Communities.
Hierarchisches dichtebasiertes Modell von zeitlich
variablen Small-World Graphen mit nach PowerLaw verteilten Graden.
7
Anwendung einer solchen Hierarchie
WWW-Suche: Fibonacci
8
bisherige Forschungsergebnisse
9
Graphen-Clustering
Problem:
Input:
Output:
I
I
10
I
viele interne Kanten (Dichte)
I
wenige externe Kanten (Schnitt)
I
viele kurze Pfade (Zusammenhang)
D ENSE k-S UBGRAPH -P ROBLEM
Graph G, k ∈ N
Subgraph G0 mit maximaler Anzahl von Kanten
und genau k Knoten
(variables) Entscheidungsproblem N P-vollständig
O(n
1
−
3
)-Approximation [Feige, Kortsarz, Peleg, 2001]
γ -Dense Subgraph Problem
Problem:
Input:
Output:
γ-D ENSE S UBGRAPH P ROBLEM (γ-DSP)
Graph G, k ∈ N
Gibt es einen Subgraphen G0 mit k Knoten und
mindestens γ(k) Kanten?
• γ(k) =
k
2
• γ(k) = 0
γ-DSP = C LIQUE ∈ N P-c
γ-DSP ∈ P
Wo liegt der Übergang?
11
Ergebnisse – Übersicht
[Asahiro et.al. 2002]
[Feige, Seltser 1997]
[H et.al. 2002]
12
P
N P-c
γ(k) = k
γ(k) = Θ(k 1+ )
γ(k) = k + k γ(k) = k + O(1) γ(k) = k + Ω(k )
Forschungsideen
13
Grobübersicht
Was kommt als nächstes?
World Wide Web
General Research
Detecting
Web Communities
Density−based
Clustering
Grouping of Communities
Generation of Hierarchies
• Trawling the Web for Emerging Cyber Communities
[Kumar, Raghavan, Rajagopalan, Tomkins, 1999] WWW8
• An approach to build a cyber-community hierarchy
[Krishna Reddy, Kitsuregawa, 2002] Workshop on Web Analytics
14
Hierarchisierung des Web
Studentenprojekte:
I
I
Web-Crawler zum Sammeln von Daten
Extrahieren von Web Communities
Forschungsarbeit:
15
I
Begriffsklärung: Dichte in gerichteten Graphen
I
Aufbau von Web-Hierarchien
• Entwickeln von bottom-up Verfahren
• Qualitätsaussagen (Approximationsgüte)
Zeitlicher Verlauf
Integration in eine Hierarchie
I
Bewertung von neuen Seiten
I
Anpassen der Hierarchiebeschreibung
(qualitativ und quantitativ)
I
→ “Passt die Hierarchie zum Datensatz?”
Restrukturierung der Hierarchie
I
I
I
16
Gütekriterien für Hierarchien
Nachführungen beim Auflösen bzw. Einfügen von
Abstraktionsstufen
Qualitätsaussagen nach mehreren Modifikationen
Herunterladen