Folien (Satz 1)

Werbung
23. November 2011
• Betweenness Centrality
• Closeness Centrality
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
108
Betweenness Centrality
ο‚— Grundlegende Idee: Ein Knoten ist wichtig, wenn er
auf vielen kürzesten Wegen liegt
ο‚— Sei πœŽπ‘ π‘‘ = πœŽπ‘‘π‘  die Zahl der kürzesten Wege zwischen 𝑠
und 𝑑
ο‚— Sei πœŽπ‘ π‘‘ 𝑣 die Zahl der kürzesten Wege zwischen 𝑠 und
𝑑, auf denen der Knoten 𝑣 (als Zwischenknoten) liegt
ο‚— Intermediationszentralität (Betweenness Centrality)
BC: CB v =
πœŽπ‘ π‘‘ (𝑣)
𝑠≠𝑣≠𝑑∈𝑉 𝜎
𝑠𝑑
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
109
Ansatz zur Beschleunigung
Kombinatorisches Zählen von Wegen
ο‚— Def. (Vorgänger): 𝑃𝑠 𝑣 = {𝑒 ∈ 𝑉: 𝑒, 𝑣 ∈ 𝐸,
𝑑𝐺 𝑠, 𝑣 = 𝑑𝐺 𝑠, 𝑒 + πœ”(𝑒, 𝑣)}
ο‚— Lemma: Für 𝑠 ≠ 𝑣 ∈ 𝑉 gilt:
πœŽπ‘ π‘£ =
πœŽπ‘ π‘’
𝑒∈𝑃𝑠 (𝑣)
BFS und
Dijkstra (mit
FibonacciHeap)
ο‚— Folgerung: Ist ein Startknoten 𝑠 ∈ 𝑉 gegeben, lässt
sich die Zahl und Länge aller kürzesten Wege zu allen
anderen Knoten in Zeit 𝑂(π‘š + 𝑛 log 𝑛) für gewichtete
Graphen berechen, in 𝑂(π‘š) für ungewichtete.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
110
Abhängigkeit eines Knotens
ο‚— Ziel: Nicht alle Paar-Abhängigkeiten summieren müssen
ο‚— Def.: (Abhängigkeit eines Knotens 𝑠)
π›Ώπ‘ βˆ˜ 𝑣 =
𝛿𝑠𝑑 (𝑣)
𝑑∈𝑉
𝛿𝑠𝑑 𝑣 =
πœŽπ‘ π‘‘ (𝑣)
πœŽπ‘ π‘‘
CB v =
𝛿𝑠𝑑 (𝑣)
𝑠≠𝑣≠𝑑∈𝑉
ο‚— Diese Summen haben eine rekursive Beziehung!
ο‚— Theorem: Für die Abhängigkeit π›Ώπ‘ βˆ˜ 𝑣 eines Start-
knotens 𝑠 ∈ 𝑉 zu einem anderen Knoten 𝑣 ∈ 𝑉 gilt:
πœŽπ‘ π‘£
π›Ώπ‘ βˆ˜ 𝑣 =
(1 + π›Ώπ‘ βˆ˜ 𝑀 )
πœŽπ‘ π‘€
𝑀: 𝑣∈𝑃𝑠 (𝑀)
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
111
Abbildung zum Beweis
π›Ώπ‘ βˆ˜ 𝑣 =
𝑀: 𝑣∈𝑃𝑠 (𝑀)
CB v =
πœŽπ‘ π‘£
(1 + π›Ώπ‘ βˆ˜ 𝑀 )
πœŽπ‘ π‘€
𝛿𝑠𝑑 𝑣 =
𝑠≠𝑣≠𝑑∈𝑉
[Brandes 2001]
π›Ώπ‘ βˆ˜ (𝑣)
𝑠≠𝑣∈𝑉
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
112
Akkumulation der Abhängigkeiten (1)
ο‚— Beobachtung: Ähnlich wie bei Tiefensuche:
Bei Berechnung der kürzesten Wege von einem
Startknoten 𝑠 ∈ 𝑉 in G entsteht ein Baum aus den
Kanten der “ersten Entdeckung”.
ο‚— Folgerung: Sei der Baum der kürzesten Wege von
einem Startknoten 𝑠 ∈ 𝑉 in G gegeben. Dann lassen
sich die Abhängigkeiten von 𝑠 zu allen anderen
Knoten in Zeit 𝑂(π‘š) und Platz 𝑂(𝑛 + π‘š) berechnen.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
113
Akkumulation der Abhängigkeiten (2)
ο‚— Beweis:
ο‚— Traversiere die Knoten in nicht-aufsteigender
Reihenfolge hinsichtlich ihrer Distanz zu 𝑠 und
akkumuliere die Abhängigkeiten gemäß des Theorems.
ο‚— Wir müssen pro Knoten eine Abhängigkeit und die Liste
der Vorgänger speichern.
ο‚— Pro Kante gibt es höchstens ein Element in allen diesen
Listen.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
114
Der Algorithmus von Brandes
ο‚— Berechne n Kürzeste-Wege-Bäume, einen pro 𝑠 ∈ 𝑉
ο‚— Währenddessen auch die Mengen 𝑃𝑠 (𝑣) berechnen
ο‚— Berechne für jedes jeweilige 𝑠 ∈ 𝑉 und alle anderen 𝑣 ∈ 𝑉
die Abhängigkeiten π›Ώπ‘ βˆ˜ (𝑣) mit Hilfe des Baumes, der
Vorgängermengen und des Theorems:
ο‚— Starte an den Blättern des Baumes, arbeite dich wie auf der
vorigen Folie beschrieben schrittweise zur Wurzel voran
ο‚— Akkumuliere den Abhängigkeitswert des Startknotens s zu
jedem einzelnen Knoten 𝑣 im Zentralitätswert von 𝑣
π›Ώπ‘ βˆ˜ 𝑣 =
𝑀: 𝑣∈𝑃𝑠 (𝑀)
πœŽπ‘ π‘£
(1 + π›Ώπ‘ βˆ˜ 𝑀 )
πœŽπ‘ π‘€
CB v =
π›Ώπ‘ βˆ˜ (𝑣)
𝑠≠𝑣∈𝑉
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
115
Endresultat
ο‚— BC kann in Zeit 𝑂(π‘›π‘š + 𝑛2 log 𝑛) und Platz
𝑂(𝑛 + π‘š) auf gewichteten Graphen berechnet werden.
ο‚— Für ungewichtete Graphen reduziert sich die Laufzeit
zu 𝑂(π‘›π‘š).
οƒ˜ Für dünn besetzte Graphen mit einer linearen Anzahl
von Kanten (linear in 𝑛) verbessert dies den naiven
Algorithmus mit kubischer Laufzeit um den Faktor
𝑛
O(
) bzw. O(𝑛).
log 𝑛
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
116
• Nähezentralität (Closeness Centrality)
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
117
Nähezentralität (Closeness Centrality)
ο‚— Wieder Berücksichtigung der kürzesten Wege
ο‚— Dieses Mal aber deren Länge, nicht deren Zahl
ο‚— Mittlerer kürzester Abstand:
1
𝑙𝑖 =
𝑛
𝑑𝑖𝑗
𝑗
ο‚— Nachteil dieses Maßes: Hohe Werte sprechen für einen
geringen Einfluss im Netzwerk
ο‚— Nähezentralität:
1
𝑛
𝐢𝑖 = =
𝑙𝑖
𝑗 𝑑𝑖𝑗
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
118
Alternative Formulierung
ο‚— Problem: Knoten in verschiedenen Komponenten
haben unendlich großen Abstand
ο‚— Alternativ: Harmonisches Mittel des Abstands
1
1
′
𝐢𝑖 =
𝑛−1
𝑑𝑖𝑗
𝑗≠𝑖
ο‚— Löst das Problem der ZHK und gibt Ähnlichkeit an
ο‚— Trotzdem:
In der Praxis (inkl. Wissenschaft) wenig verwendet
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
119
Betrachtung des ganzen Netzwerks
ο‚— Auch Netzwerke kann man anhand bestimmter Maße
einordnen
ο‚— Closeness bei einer ZHK:
1
𝑙= 2
𝑛
𝑖𝑗
1
𝑑𝑖𝑗 =
𝑛
𝑙𝑖
𝑖
ο‚— Bei mehreren ZHK: Wieder Problem mit unendlich großen
Abständen.
ο‚— Daher Durchschnittsbildung mit harmonischem Mittel:
𝑛
′
𝑙 =
′
𝐢
𝑖 𝑖
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
120
Fragestellung
ο‚— Wie und wie schnell kann man die Nähezentralität
berechnen?
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
121
Abstandsberechnung
ο‚— Abstandsberechnung in ungewichteten
(Multi)Graphen: Breitensuche (BFS)
ο‚— Analog zur Tiefensuche vergeben wir BFS-Nummern:
ο‚— BFS(w) := BFS(v)+1 gdw. w von v „entdeckt“ wird
ο‚— Komplexität: O(n+m)
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
122
entralit ät
Abst andszentralit ät en
Breitensuche
Breitensuche
Kantenklassifikation
Baumkante, falls w nicht markiert ist
Rückwärtskante, falls w markiert ist und BFS(w) < BFS(v)
gilt
Querkante, falls w markiert ist und BFS(w) = BFS(v) gilt
Vorwärtskante, falls w markiert ist und BFS(w) > BFS(v)
gilt
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
123
Berechnung von Nähezentralität
in ungewichteten Multigraphen
Abst andszent ralit ät en
ο‚— Proposition: Sei 𝐺 = (𝑉, 𝐸) ein ungewichteter
Closeness sei 𝑠 ∈ 𝑉. Nach BFS mit Wurzel 𝑠 gilt:
Multigraph,
𝑑𝐺 (𝑠, 𝑣) = 𝐡𝐹𝑆(𝑣)
für alle 𝑣 ∈ 𝑉.
Satz
Die Closeness-Zentralit äten der Knoten eines stark
zusammenhängenden Multigraphen können in O(n · m) Zeit
berechnet werden.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
124
Diskussion
Nähezentralität
ο‚— Vorteil: Nähezentralität sehr natürliches Maß
ο‚— Nachteil: Kein breites Spektrum der Ergebnisse
ο‚— Maximaler Abstand typischerweise logarithmisch
ο‚— Beispiel IMDB: Maximum 0.4143, Minimum: 0.1154
ο‚— Nachteil: Behandlung von unzusammenhängenden
Graphen
ο‚— Lösung dafür: Harmonische Mittelbildung
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
125
Fazit Zentralitätsmaße
ο‚— Gradzentralität
ο‚— Eigenvektorzentralität, PageRank
ο‚— Intermediations- und Nähezentralität
(Betweenness und Closeness Centrality)
ο‚—
ο‚—
ο‚—
ο‚—
Art der Berechnung
Komplexität
Aussagekraft
…
ο‚— Jetzt sind Sie dran!
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
126
Herunterladen