Combined Clustering of Graph and Attribute Data

Werbung
Abstract
In recent years, a rapidly increasing amount of data is collected and stored
for various applications. As modern storage systems provide increasing disk
space at decreasing costs, databases storing huge amounts of information of
different types are ubiquitous. The task of automatically extracting useful and
previously unknown knowledge out of such data is called data mining. This
thesis focuses on the data mining task of clustering, i.e. grouping objects into
clusters such that objects assigned to the same cluster are similar to each other,
while objects assigned to different clusters are dissimilar.
Two of the most common data types are vector data, where each object is
represented as a vector containing different attributes of the object, and graph
data, which represents relationships between different objects as edges in a
graph. In many applications, data of both types is available simultaneously:
for the vertices or the edges of a graph, additional information is available
which can be described as an attribute vector. The aim of this thesis is to
develop combined clustering approaches that use graph data and attribute data
simultaneously in order to detect clusters that are densely connected in the
graph and at the same time show similarity in the attribute space. As for highdimensional vector data, clusters usually exist only in subspaces of the attribute
space, we follow the principle of subspace clustering to enable the detection of
clusters which show similarity only in a subset of the attributes.
In this thesis, we introduce combined clustering approaches for graphs with
vertex attributes, graphs with edge attributes and heterogeneous networks
with attributed vertices. For all of those data types, our approaches focus on
realizing an unbiased combination of graph and attribute data and avoiding
redundancy in the clustering result.
1
Zusammenfassung
In vielen modernen Anwendungen werden heutzutage immer größere Datenmengen gesammelt und gespeichert. Da moderne Speichersysteme immer
höhere Speicherkapazitäten bei immer geringeren Kosten ermöglichen, sind
Datenbanken, die große Mengen von Daten verschiedener Typen enthalten,
heute allgegenwärtig. Der Begriff Data Mining beschreibt die Aufgabe, aus
solchen Datenmengen nützliches und zuvor unbekanntes Wissen automatisiert
zu extrahieren. Diese Arbeit befasst sich mit einer speziellen Aufgabe des
Data Mining, dem Clustering. Dieses hat das Ziel, Objekte in Cluster zu gruppieren, so dass Objekte im selben Cluster einander ähnlich und Objekte in unterschiedlichen Clustern einander unähnlich sein sollen.
Zwei der häufigsten Datentypen sind Vektordaten, die jedes Objekt durch
einen Vektor von Attributen darstellen, und Graph-Daten, die Beziehungen
zwischen Objekten als Kanten in Graphen darstellen. In vielen Fällen sind
Daten beider Typen vorhanden; so können zusätzlich zu einem Graphen weitere Informationen über die Knoten oder auch die Kanten existieren, die als Attributvektoren dargestellt werden können. Das Ziel dieser Arbeit ist es, Clusteringverfahren zu entwickeln, die beide Datentypen simultan verwenden und so
Cluster von Objekten finden, die sowohl im Graphen dicht verbunden als auch
im Attributraum zueinander ähnlich sind. Da für hochdimensionale Vektordaten eine Ähnlichkeit in allen Attributen unwahrscheinlich ist, sollen unsere
Verfahren gemäß dem Prinzip des Subspace Clustering auch Cluster finden, die
nur in einer Teilmenge der Attribute die Ähnlichkeit erfüllen.
In dieser Arbeit werden Clusteringverfahren für Graphen mit Knotenattributen, Graphen mit Kantenattributen und heterogene Netzwerke vorgestellt.
Alle diese Ansätze haben das Ziel, eine möglichst unverzerrte Kombination der
Datentypen und möglichst redundanzfreie Clusteringergebnisse zu erreichen.
3
Herunterladen