Folien (Satz 1)

23. November 2011
• Betweenness Centrality
• Closeness Centrality
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
108
Betweenness Centrality
 Grundlegende Idee: Ein Knoten ist wichtig, wenn er
auf vielen kürzesten Wegen liegt
 Sei 𝜎𝑠𝑡 = 𝜎𝑡𝑠 die Zahl der kürzesten Wege zwischen 𝑠
und 𝑡
 Sei 𝜎𝑠𝑡 𝑣 die Zahl der kürzesten Wege zwischen 𝑠 und
𝑡, auf denen der Knoten 𝑣 (als Zwischenknoten) liegt
 Intermediationszentralität (Betweenness Centrality)
BC: CB v =
𝜎𝑠𝑡 (𝑣)
𝑠≠𝑣≠𝑡∈𝑉 𝜎
𝑠𝑡
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
109
Ansatz zur Beschleunigung
Kombinatorisches Zählen von Wegen
 Def. (Vorgänger): 𝑃𝑠 𝑣 = {𝑢 ∈ 𝑉: 𝑢, 𝑣 ∈ 𝐸,
𝑑𝐺 𝑠, 𝑣 = 𝑑𝐺 𝑠, 𝑢 + 𝜔(𝑢, 𝑣)}
 Lemma: Für 𝑠 ≠ 𝑣 ∈ 𝑉 gilt:
𝜎𝑠𝑣 =
𝜎𝑠𝑢
𝑢∈𝑃𝑠 (𝑣)
BFS und
Dijkstra (mit
FibonacciHeap)
 Folgerung: Ist ein Startknoten 𝑠 ∈ 𝑉 gegeben, lässt
sich die Zahl und Länge aller kürzesten Wege zu allen
anderen Knoten in Zeit 𝑂(𝑚 + 𝑛 log 𝑛) für gewichtete
Graphen berechen, in 𝑂(𝑚) für ungewichtete.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
110
Abhängigkeit eines Knotens
 Ziel: Nicht alle Paar-Abhängigkeiten summieren müssen
 Def.: (Abhängigkeit eines Knotens 𝑠)
𝛿𝑠∘ 𝑣 =
𝛿𝑠𝑡 (𝑣)
𝑡∈𝑉
𝛿𝑠𝑡 𝑣 =
𝜎𝑠𝑡 (𝑣)
𝜎𝑠𝑡
CB v =
𝛿𝑠𝑡 (𝑣)
𝑠≠𝑣≠𝑡∈𝑉
 Diese Summen haben eine rekursive Beziehung!
 Theorem: Für die Abhängigkeit 𝛿𝑠∘ 𝑣 eines Start-
knotens 𝑠 ∈ 𝑉 zu einem anderen Knoten 𝑣 ∈ 𝑉 gilt:
𝜎𝑠𝑣
𝛿𝑠∘ 𝑣 =
(1 + 𝛿𝑠∘ 𝑤 )
𝜎𝑠𝑤
𝑤: 𝑣∈𝑃𝑠 (𝑤)
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
111
Abbildung zum Beweis
𝛿𝑠∘ 𝑣 =
𝑤: 𝑣∈𝑃𝑠 (𝑤)
CB v =
𝜎𝑠𝑣
(1 + 𝛿𝑠∘ 𝑤 )
𝜎𝑠𝑤
𝛿𝑠𝑡 𝑣 =
𝑠≠𝑣≠𝑡∈𝑉
[Brandes 2001]
𝛿𝑠∘ (𝑣)
𝑠≠𝑣∈𝑉
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
112
Akkumulation der Abhängigkeiten (1)
 Beobachtung: Ähnlich wie bei Tiefensuche:
Bei Berechnung der kürzesten Wege von einem
Startknoten 𝑠 ∈ 𝑉 in G entsteht ein Baum aus den
Kanten der “ersten Entdeckung”.
 Folgerung: Sei der Baum der kürzesten Wege von
einem Startknoten 𝑠 ∈ 𝑉 in G gegeben. Dann lassen
sich die Abhängigkeiten von 𝑠 zu allen anderen
Knoten in Zeit 𝑂(𝑚) und Platz 𝑂(𝑛 + 𝑚) berechnen.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
113
Akkumulation der Abhängigkeiten (2)
 Beweis:
 Traversiere die Knoten in nicht-aufsteigender
Reihenfolge hinsichtlich ihrer Distanz zu 𝑠 und
akkumuliere die Abhängigkeiten gemäß des Theorems.
 Wir müssen pro Knoten eine Abhängigkeit und die Liste
der Vorgänger speichern.
 Pro Kante gibt es höchstens ein Element in allen diesen
Listen.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
114
Der Algorithmus von Brandes
 Berechne n Kürzeste-Wege-Bäume, einen pro 𝑠 ∈ 𝑉
 Währenddessen auch die Mengen 𝑃𝑠 (𝑣) berechnen
 Berechne für jedes jeweilige 𝑠 ∈ 𝑉 und alle anderen 𝑣 ∈ 𝑉
die Abhängigkeiten 𝛿𝑠∘ (𝑣) mit Hilfe des Baumes, der
Vorgängermengen und des Theorems:
 Starte an den Blättern des Baumes, arbeite dich wie auf der
vorigen Folie beschrieben schrittweise zur Wurzel voran
 Akkumuliere den Abhängigkeitswert des Startknotens s zu
jedem einzelnen Knoten 𝑣 im Zentralitätswert von 𝑣
𝛿𝑠∘ 𝑣 =
𝑤: 𝑣∈𝑃𝑠 (𝑤)
𝜎𝑠𝑣
(1 + 𝛿𝑠∘ 𝑤 )
𝜎𝑠𝑤
CB v =
𝛿𝑠∘ (𝑣)
𝑠≠𝑣∈𝑉
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
115
Endresultat
 BC kann in Zeit 𝑂(𝑛𝑚 + 𝑛2 log 𝑛) und Platz
𝑂(𝑛 + 𝑚) auf gewichteten Graphen berechnet werden.
 Für ungewichtete Graphen reduziert sich die Laufzeit
zu 𝑂(𝑛𝑚).
 Für dünn besetzte Graphen mit einer linearen Anzahl
von Kanten (linear in 𝑛) verbessert dies den naiven
Algorithmus mit kubischer Laufzeit um den Faktor
𝑛
O(
) bzw. O(𝑛).
log 𝑛
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
116
• Nähezentralität (Closeness Centrality)
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
117
Nähezentralität (Closeness Centrality)
 Wieder Berücksichtigung der kürzesten Wege
 Dieses Mal aber deren Länge, nicht deren Zahl
 Mittlerer kürzester Abstand:
1
𝑙𝑖 =
𝑛
𝑑𝑖𝑗
𝑗
 Nachteil dieses Maßes: Hohe Werte sprechen für einen
geringen Einfluss im Netzwerk
 Nähezentralität:
1
𝑛
𝐶𝑖 = =
𝑙𝑖
𝑗 𝑑𝑖𝑗
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
118
Alternative Formulierung
 Problem: Knoten in verschiedenen Komponenten
haben unendlich großen Abstand
 Alternativ: Harmonisches Mittel des Abstands
1
1
′
𝐶𝑖 =
𝑛−1
𝑑𝑖𝑗
𝑗≠𝑖
 Löst das Problem der ZHK und gibt Ähnlichkeit an
 Trotzdem:
In der Praxis (inkl. Wissenschaft) wenig verwendet
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
119
Betrachtung des ganzen Netzwerks
 Auch Netzwerke kann man anhand bestimmter Maße
einordnen
 Closeness bei einer ZHK:
1
𝑙= 2
𝑛
𝑖𝑗
1
𝑑𝑖𝑗 =
𝑛
𝑙𝑖
𝑖
 Bei mehreren ZHK: Wieder Problem mit unendlich großen
Abständen.
 Daher Durchschnittsbildung mit harmonischem Mittel:
𝑛
′
𝑙 =
′
𝐶
𝑖 𝑖
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
120
Fragestellung
 Wie und wie schnell kann man die Nähezentralität
berechnen?
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
121
Abstandsberechnung
 Abstandsberechnung in ungewichteten
(Multi)Graphen: Breitensuche (BFS)
 Analog zur Tiefensuche vergeben wir BFS-Nummern:
 BFS(w) := BFS(v)+1 gdw. w von v „entdeckt“ wird
 Komplexität: O(n+m)
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
122
entralit ät
Abst andszentralit ät en
Breitensuche
Breitensuche
Kantenklassifikation
Baumkante, falls w nicht markiert ist
Rückwärtskante, falls w markiert ist und BFS(w) < BFS(v)
gilt
Querkante, falls w markiert ist und BFS(w) = BFS(v) gilt
Vorwärtskante, falls w markiert ist und BFS(w) > BFS(v)
gilt
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
123
Berechnung von Nähezentralität
in ungewichteten Multigraphen
Abst andszent ralit ät en
 Proposition: Sei 𝐺 = (𝑉, 𝐸) ein ungewichteter
Closeness sei 𝑠 ∈ 𝑉. Nach BFS mit Wurzel 𝑠 gilt:
Multigraph,
𝑑𝐺 (𝑠, 𝑣) = 𝐵𝐹𝑆(𝑣)
für alle 𝑣 ∈ 𝑉.
Satz
Die Closeness-Zentralit äten der Knoten eines stark
zusammenhängenden Multigraphen können in O(n · m) Zeit
berechnet werden.
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
124
Diskussion
Nähezentralität
 Vorteil: Nähezentralität sehr natürliches Maß
 Nachteil: Kein breites Spektrum der Ergebnisse
 Maximaler Abstand typischerweise logarithmisch
 Beispiel IMDB: Maximum 0.4143, Minimum: 0.1154
 Nachteil: Behandlung von unzusammenhängenden
Graphen
 Lösung dafür: Harmonische Mittelbildung
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
125
Fazit Zentralitätsmaße
 Gradzentralität
 Eigenvektorzentralität, PageRank
 Intermediations- und Nähezentralität
(Betweenness und Closeness Centrality)




Art der Berechnung
Komplexität
Aussagekraft
…
 Jetzt sind Sie dran!
H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse
126