23. November 2011 • Betweenness Centrality • Closeness Centrality H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 108 Betweenness Centrality ο Grundlegende Idee: Ein Knoten ist wichtig, wenn er auf vielen kürzesten Wegen liegt ο Sei ππ π‘ = ππ‘π die Zahl der kürzesten Wege zwischen π und π‘ ο Sei ππ π‘ π£ die Zahl der kürzesten Wege zwischen π und π‘, auf denen der Knoten π£ (als Zwischenknoten) liegt ο Intermediationszentralität (Betweenness Centrality) BC: CB v = ππ π‘ (π£) π ≠π£≠π‘∈π π π π‘ H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 109 Ansatz zur Beschleunigung Kombinatorisches Zählen von Wegen ο Def. (Vorgänger): ππ π£ = {π’ ∈ π: π’, π£ ∈ πΈ, ππΊ π , π£ = ππΊ π , π’ + π(π’, π£)} ο Lemma: Für π ≠ π£ ∈ π gilt: ππ π£ = ππ π’ π’∈ππ (π£) BFS und Dijkstra (mit FibonacciHeap) ο Folgerung: Ist ein Startknoten π ∈ π gegeben, lässt sich die Zahl und Länge aller kürzesten Wege zu allen anderen Knoten in Zeit π(π + π log π) für gewichtete Graphen berechen, in π(π) für ungewichtete. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 110 Abhängigkeit eines Knotens ο Ziel: Nicht alle Paar-Abhängigkeiten summieren müssen ο Def.: (Abhängigkeit eines Knotens π ) πΏπ β π£ = πΏπ π‘ (π£) π‘∈π πΏπ π‘ π£ = ππ π‘ (π£) ππ π‘ CB v = πΏπ π‘ (π£) π ≠π£≠π‘∈π ο Diese Summen haben eine rekursive Beziehung! ο Theorem: Für die Abhängigkeit πΏπ β π£ eines Start- knotens π ∈ π zu einem anderen Knoten π£ ∈ π gilt: ππ π£ πΏπ β π£ = (1 + πΏπ β π€ ) ππ π€ π€: π£∈ππ (π€) H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 111 Abbildung zum Beweis πΏπ β π£ = π€: π£∈ππ (π€) CB v = ππ π£ (1 + πΏπ β π€ ) ππ π€ πΏπ π‘ π£ = π ≠π£≠π‘∈π [Brandes 2001] πΏπ β (π£) π ≠π£∈π H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 112 Akkumulation der Abhängigkeiten (1) ο Beobachtung: Ähnlich wie bei Tiefensuche: Bei Berechnung der kürzesten Wege von einem Startknoten π ∈ π in G entsteht ein Baum aus den Kanten der “ersten Entdeckung”. ο Folgerung: Sei der Baum der kürzesten Wege von einem Startknoten π ∈ π in G gegeben. Dann lassen sich die Abhängigkeiten von π zu allen anderen Knoten in Zeit π(π) und Platz π(π + π) berechnen. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 113 Akkumulation der Abhängigkeiten (2) ο Beweis: ο Traversiere die Knoten in nicht-aufsteigender Reihenfolge hinsichtlich ihrer Distanz zu π und akkumuliere die Abhängigkeiten gemäß des Theorems. ο Wir müssen pro Knoten eine Abhängigkeit und die Liste der Vorgänger speichern. ο Pro Kante gibt es höchstens ein Element in allen diesen Listen. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 114 Der Algorithmus von Brandes ο Berechne n Kürzeste-Wege-Bäume, einen pro π ∈ π ο Währenddessen auch die Mengen ππ (π£) berechnen ο Berechne für jedes jeweilige π ∈ π und alle anderen π£ ∈ π die Abhängigkeiten πΏπ β (π£) mit Hilfe des Baumes, der Vorgängermengen und des Theorems: ο Starte an den Blättern des Baumes, arbeite dich wie auf der vorigen Folie beschrieben schrittweise zur Wurzel voran ο Akkumuliere den Abhängigkeitswert des Startknotens s zu jedem einzelnen Knoten π£ im Zentralitätswert von π£ πΏπ β π£ = π€: π£∈ππ (π€) ππ π£ (1 + πΏπ β π€ ) ππ π€ CB v = πΏπ β (π£) π ≠π£∈π H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 115 Endresultat ο BC kann in Zeit π(ππ + π2 log π) und Platz π(π + π) auf gewichteten Graphen berechnet werden. ο Für ungewichtete Graphen reduziert sich die Laufzeit zu π(ππ). ο Für dünn besetzte Graphen mit einer linearen Anzahl von Kanten (linear in π) verbessert dies den naiven Algorithmus mit kubischer Laufzeit um den Faktor π O( ) bzw. O(π). log π H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 116 • Nähezentralität (Closeness Centrality) H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 117 Nähezentralität (Closeness Centrality) ο Wieder Berücksichtigung der kürzesten Wege ο Dieses Mal aber deren Länge, nicht deren Zahl ο Mittlerer kürzester Abstand: 1 ππ = π πππ π ο Nachteil dieses Maßes: Hohe Werte sprechen für einen geringen Einfluss im Netzwerk ο Nähezentralität: 1 π πΆπ = = ππ π πππ H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 118 Alternative Formulierung ο Problem: Knoten in verschiedenen Komponenten haben unendlich großen Abstand ο Alternativ: Harmonisches Mittel des Abstands 1 1 ′ πΆπ = π−1 πππ π≠π ο Löst das Problem der ZHK und gibt Ähnlichkeit an ο Trotzdem: In der Praxis (inkl. Wissenschaft) wenig verwendet H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 119 Betrachtung des ganzen Netzwerks ο Auch Netzwerke kann man anhand bestimmter Maße einordnen ο Closeness bei einer ZHK: 1 π= 2 π ππ 1 πππ = π ππ π ο Bei mehreren ZHK: Wieder Problem mit unendlich großen Abständen. ο Daher Durchschnittsbildung mit harmonischem Mittel: π ′ π = ′ πΆ π π H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 120 Fragestellung ο Wie und wie schnell kann man die Nähezentralität berechnen? H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 121 Abstandsberechnung ο Abstandsberechnung in ungewichteten (Multi)Graphen: Breitensuche (BFS) ο Analog zur Tiefensuche vergeben wir BFS-Nummern: ο BFS(w) := BFS(v)+1 gdw. w von v „entdeckt“ wird ο Komplexität: O(n+m) H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 122 entralit aΜt Abst andszentralit aΜt en Breitensuche Breitensuche Kantenklassifikation Baumkante, falls w nicht markiert ist RuΜckwaΜrtskante, falls w markiert ist und BFS(w) < BFS(v) gilt Querkante, falls w markiert ist und BFS(w) = BFS(v) gilt VorwaΜrtskante, falls w markiert ist und BFS(w) > BFS(v) gilt H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 123 Berechnung von Nähezentralität in ungewichteten Multigraphen Abst andszent ralit aΜt en ο Proposition: Sei πΊ = (π, πΈ) ein ungewichteter Closeness sei π ∈ π. Nach BFS mit Wurzel π gilt: Multigraph, ππΊ (π , π£) = π΅πΉπ(π£) für alle π£ ∈ π. Satz Die Closeness-Zentralit aΜten der Knoten eines stark zusammenhaΜngenden Multigraphen koΜnnen in O(n · m) Zeit berechnet werden. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 124 Diskussion Nähezentralität ο Vorteil: Nähezentralität sehr natürliches Maß ο Nachteil: Kein breites Spektrum der Ergebnisse ο Maximaler Abstand typischerweise logarithmisch ο Beispiel IMDB: Maximum 0.4143, Minimum: 0.1154 ο Nachteil: Behandlung von unzusammenhängenden Graphen ο Lösung dafür: Harmonische Mittelbildung H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 125 Fazit Zentralitätsmaße ο Gradzentralität ο Eigenvektorzentralität, PageRank ο Intermediations- und Nähezentralität (Betweenness und Closeness Centrality) ο ο ο ο Art der Berechnung Komplexität Aussagekraft … ο Jetzt sind Sie dran! H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 126