Zentralitäten in Graphen Diplomarbeit von Burkhard Möller Universität Konstanz Mathematisch-Naturwissenschaftliche Sektion Fachbereich Informatik & Informationswissenschaft Juli 2002 Danksagung An dieser Stelle möchte ich mich bei Professor Dr. Dorothea Wagner und Dr. Ulrik Brandes für die interessante Aufgabenstellung und die Betreuung der Diplomarbeit bedanken. Desweiteren danke ich meinem guten Freund Wolfgang Freitag, mit dem ich des öfteren über das Thema philosophierte. Inhaltsverzeichnis 1 Einführung 3 2 Vereinbarungen 5 3 Zentralitäten in Graphen 3.1 Popularitätsindex P . . . . . . . . . 3.2 Nachbarzentralitäten . . . . . . . . . 3.2.1 Status-Index S . . . . . . . . 3.2.2 Hubbell-Index H . . . . . . . 3.2.3 Standardzentralität B . . . . 3.2.4 Verhandlungszentralität V . . 3.2.5 PageRank R . . . . . . . . . 3.2.6 Authorities KA und Hubs KH 3.2.7 Resümee . . . . . . . . . . . . 3.3 Entfernungszentralitäten . . . . . . . 3.3.1 Stresszentralität ST . . . . . 3.3.2 Zwischenzentralität ZW . . . 3.3.3 Abstandszentralität AB . . . 3.3.4 Graphenzentralität GR . . . . 3.3.5 Resümee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Normierung 4.1 Ansätze am Popularitätsindex P . . . . . 4.1.1 äußere Relativ-Popularität P1 . . . 4.1.2 innere Relativ-Popularität P2 . . . 4.1.3 prozentuale Relativ-Popularität P3 4.2 Verallgemeinerung . . . . . . . . . . . . . 4.2.1 äußere Relativ-Zentralität Z1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 21 26 26 39 45 55 62 68 77 80 81 85 90 93 95 . . . . . . 97 98 99 100 102 103 103 2 INHALTSVERZEICHNIS 4.3 4.4 4.2.2 innere Relativ-Zentralität Z2 . . . 4.2.3 prozentuale Relativ-Zentralität Z3 Normierung der Nachbarzentralitäten . . 4.3.1 Status-Index S . . . . . . . . . . 4.3.2 Hubbell-Index H . . . . . . . . . 4.3.3 Standardzentralität B . . . . . . 4.3.4 Verhandlungszentralität V . . . . 4.3.5 PageRank R . . . . . . . . . . . 4.3.6 Authorities KA und Hubs KH . . Normierung der Entfernungszentralitäten 4.4.1 Stresszentralität ST . . . . . . . 4.4.2 Zwischenzentralität ZW . . . . . 4.4.3 Abstandszentralität AB . . . . . 4.4.4 Graphenzentralität GR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 109 112 113 115 116 119 121 122 126 126 128 130 133 5 Zusammenfassung 137 A Beispielgraph GC 141 B Grundlagen 155 Kapitel 1 Einführung Zusammenhänge zwischen Objekten, wie z.B. Personen, Bahnhöfen, WWWSeiten usw. können oft durch Graphen modelliert werden. Zur Analyse gewisser struktureller Eigenschaften in diesen Graphen, wie beispielsweise Zentralitäten und Symmetrien, oder auch zur Bestimmung (und Visualisierung) stark zusammenhängender Subgraphen, können dann mathematische Methoden angewandt werden. So werden z.B. in sozialen Netzwerken die daran beteiligten Personen als Knoten eines Graphen modelliert, und die untereinander stattfindende Kommunikation durch die (evtl. gerichteten) Kanten. Auf diese Weise ist es dann möglich, durch Anwendung von Graphenalgorithmen und anderen mathematischen Methoden besonders gut oder schlecht kommunizierende Untergruppen, oder auch — bezüglich gewisser, noch zu definierender Kriterien — herausragende (z.B. besonders zentrale) Personen und manches mehr zu bestimmen. In der vorliegenden Arbeit werden verschiedene Möglichkeiten erörtert, die Knoten in einem Graphen ausgehend von ihrer strukturellen Lage adäquat zu bewerten. Diese hierfür definierten Bewertungsmaße beschreiben bzgl. unterschiedlicher Kriterien, wie sehr die von den Knoten repräsentierten Objekte im Mittelpunkt des Geschehens stehen oder aber periphere Erscheinungen sind. Da diese Bewertungen, die sogenannten Zentralitäten, auch von der Größe der betrachteten Graphen abhängen, werden anschließend einige Ansätze zur Normierung vorgestellt. Dadurch sollen diese Abhängigkeiten entfernt werden, was es ermöglicht, Zentralitäten von Graphen unterschiedlicher Größe zu vergleichen. 4 KAPITEL 1. EINFÜHRUNG In Kapitel 2 werden Vereinbarungen über Grundbegriffe der Graphentheorie getroffen. In Kapitel 3 werden verschiedene Zentralitätsmaße vorgestellt. In Kapitel 4 werden verschiedene Ansätze zur Normierung von Zentralitätsmaßen untersucht. In Anhang A werden die vorgestellten Zentralitätsmaße anhand eines ausgewählten Graphen dargestellt. Anhang B enthält einige mathematische Grundlagen. Kapitel 2 Vereinbarungen Um die Zentralitätskonzepte beschreiben zu können, werden im folgenden einige dazu benötigte Begriffe aus der Graphentheorie eingeführt. Ein Graph G = (V, E) der Größe n ∈ N besteht aus einer Menge V = {v1 , . . . , vn } von Knoten und einer Menge E = {e1 , . . . , em } ⊆ V × V von Kanten. Jede Kante e = (vi , vj ) verbindet zwei Knoten vi und vj . Gilt (vi , vj ) ∈ E, so heißt vi adjazent zu vj . Die Nachbarn von vj sind die zu vj adjazenten Knoten. 2 2 1 1 3 Abbildung 2.1: Geinf ach 3 Abbildung 2.2: Gnichteinf ach Ein Graph heißt einfach, wenn zu jedem Knotenpaar {vi , vj } aus V höchstens eine Kante (vi , vj ) (und höchstens eine Kante (vj , vi )) in E existiert. Er heißt nichteinfach, wenn er nicht einfach ist. Abb. 2.1 zeigt einen einfachen Graph, Abb. 2.2 einen nichteinfachen. Existieren mehrere Kanten (vi , vj ), so 6 KAPITEL 2. VEREINBARUNGEN heißen diese Mehrfachkanten (z.B. (v1 , v2 ) in Abb. 2.2). Eine Kante (vi , vi ) heißt Schleife. 3 3 2 4 2 4 1 5 1 5 Abbildung 2.3: Gger Abbildung 2.4: Gunger Zu unterscheiden sind gerichtete (Abb. 2.3) und ungerichtete (Abb. 2.4) Graphen. Im gerichteten Graph haben alle Kanten e = (vi , vj ) einen Anfangsknoten vi und einen Endknoten vj . Im ungerichteten Graph hingegen sind alle Kanten bidirektional. 3 3 2 4 1 5 ↔ 2 4 1 5 Abbildung 2.5: ungerichtete und gerichtete Darstellung von Gunger Ein ungerichteter Graph kann aufgefasst werden als gerichteter Graph, indem man jede ungerichtete Kante durch zwei gegenläufig gerichtete ersetzt (Abb. 2.5). Jeder Kante (vi , vj ) wird ein Gewicht c(vi , vj ) ∈ R+ zugeordnet. Gilt c(vi , vj ) = 1 für alle (vi , vj ) ∈ E, so heißt G ungewichtet, andernfalls gewichtet. 7 Ein ungewichteter Graph G wird dargestellt durch seine quadratische Adjazenzmatrix A = (aij ), wobei gilt: ( 1 , falls (vi , vj ) ∈ E . aij = 0 , sonst Für die Adjazenzmatrix W = (wij ) eines gewichteten Graphen gilt ( c(vi , vj ) , falls (vi , vj ) ∈ E wij = . 0 , sonst ▲ Praktisch alle hier vorkommenden Graphen sind ungewichtet. Daher beschränken wir uns bei den folgenden Aussagen auf ungewichtete Graphen. Für gewichtete Graphen gilt entsprechendes. Da in ungerichteten Graphen wegen der Bidirektionalität aller Kanten aij = aji gilt, sind deren Adjazenzmatrizen symmetrisch. Die Transponierte AT = (aTij ) einer Adjazenzmatrix A ist gegeben durch ( 1 , falls (vj , vi ) ∈ E . aTij = 0 , sonst Es ist also aij = aTji . Für symmetrische Matrizen gilt daher A = AT . Mit GT bezeichnen wir den zu G transponierten Graph, welcher durch die transponierte Adjazenzmatrix AT beschrieben wird. Mit 0 := (0, . . . , 0)T bezeichnen wir den Nullvektor, mit 1 := (1, . . . , 1)T den mit Einsen gefüllten Spaltenvektor jeweils passender Dimension. Der Eingangsgrad din (vk ) eines Knotens vk ist gleich der Summe der k−ten Spalte der Adjazenzmatrix A, d.h. din (vk ) = n X i=1 aik = (A1)k . 8 KAPITEL 2. VEREINBARUNGEN Der Ausgangsgrad dout (vl ) eines Knotens vl ist gleich der Summe der l−ten Zeile der Adjazenzmatrix, d.h. dout (vl ) = n X alj = (AT 1)k . j=1 Im Graph Gger (Abb. 2.3) beispielsweise hat der Knoten v2 einen Eingangsgrad von din = 2 und auch einen Ausgangsgrad von dout = 2. Da im ungerichteten Graphen für jeden Knoten vk Eingangs- und Ausgangsgrad aufgrund der Symmetrie der Adjazenzmatrix gleich sind, sagen wir hier kurz der Grad d(vk ). Ein Weg von vi nach vj ist eine Folge von Kanten (vi , va ), (va , vb ), . . . , (vz , vj ) aus E, wobei jeweils End- und Anfangsknoten aufeinanderfolgender Kanten gleich sind. Die Länge eines Weges ist die Summe der Kantengewichte, im ungewichteten Graphen daher die Anzahl der daran beteiligten Kanten. Ein kürzester Weg ist ein Weg minimaler Länge. Der Abstand oder die Entfernung dist(vi , vj ) von vi nach vj ist die Länge eines kürzesten Weges von vi nach vj . Existiert kein Weg von vi nach vj , so ist dist(vi , vj ) = ∞. Im Graph Gger ist die Entfernung dist(v1 , v3 ) = 2, wogegen dist(v3 , v1 ) = ∞ gilt. Der Gesamtabstand von vi zu den anderen Knoten ist die Summe der (Einzel-)Abstände. Ein Knoten vk liegt auf einem Weg von vi nach vj , wenn vi 6= vk 6= vj gilt und vk Endknoten (oder Anfangsknoten) einer der Kanten des Weges ist. Liegt vk auf einem kürzesten Weg von vi nach vj , so liegt vk zwischen vi und vj . Gk = (Vk , Ek ) heißt von Vk ⊂ V knoteninduzierter Teilgraph von G = (V, E), wenn Ek = {(vi , vj ) ∈ E : vi , vj ∈ Vk }. Ein Tupel (V1 , . . . , Vt ) mit ∅ 6= Vk ⊂ V , k ∈ {1, . . . t} und Vr ∩ Vs 6= ∅, r 6= s und V = ∪tk=1 Vk heißt Partition der Knotenmenge V . 9 Ein Graph G = (V, E) heißt unzusammenhängend, falls es eine Partition (V1 , . . . , Vt ) von V gibt, so dass zwischen je zwei Knotenmengen Vr und Vs , r 6= s, keine Kante existiert. 3 1 2 4 Abbildung 2.6: unzusammenhängender Graph Gunzus Der Graph lässt sich dann in die von Vk , k ∈ {1, . . . , t} knoteninduzierten Teilgraphen, die Komponenten von G, zerlegen. Kann man die Komponenten nicht weiter zerlegen, so heißen sie Zusammenhangskomponenten. Graph Gunzus (Abb. 2.6) ist unzusammenhängend. Die Zusammenhangskomponenten von Gunzus sind die von {v1 , v2 } bzw. {v3 , v4 } knoteninduzierten Teilgraphen. Ein Graph heißt zusammenhängend, wenn er nicht unzusammenhängend ist. 10 KAPITEL 2. VEREINBARUNGEN Kapitel 3 Zentralitäten in Graphen Um Vorgänge in der realen Welt wissenschaftlich untersuchen und auswerten zu können, werden diese oft auf passende mathematische Modelle abgebildet. Die Vorgänge werden dabei stark vereinfacht dargestellt, ohne dabei die für die angestrebte Erkenntnis notwendige Information zu unterdrücken. Auf den Modellen können dann existierende Standardanalyse-Methoden angewendet werden, und auch die Möglichkeit der Entwicklung neuer, auf das spezielle Problem zugeschnittener Methoden, wird dadurch stark vereinfacht. Wir betrachten hier ein Netzwerk, bestehend aus einer endlichen Menge O von Objekten, und einer darauf existierenden Struktur, die durch Beziehungen zwischen den einzelnen Objekten gegeben ist. Hierbei kann es sich beispielsweise handeln um Personen und die unter ihnen stattfindende Kommunikation (soziales Netzwerk), Informationsträger wie Websites mit ihrer zugehörigen Hyperlinkstruktur (WWW, World Wide Web), Kommunikationsgeräte (wie Telefone, Terminals, Router, ...) mit den entsprechenden Datenübertragungskanälen (Telefonnetz), Bahnhöfe mit ihren Schienenverbindungen (Schienennetz) und vieles mehr. Die so gegebene Situation soll nun auf ein Modell abgebildet werden, das die strukturellen Eigenschaften respektiert, und für das bereits ausgereifte Analysemöglichkeiten existieren. Geeignet ist hierfür ein Graph G = (V, E), bestehend aus einer Menge Knoten V und einer Menge Kanten E. Jedes Objekt oi ∈ O wird identifiziert mit einem Knoten vi ∈ V , die Beziehungen zwischen den Objekten werden dargestellt durch Kanten e ∈ E, wobei e := (vi , vj ) ∈ E gdw. “Objekt oi steht in Beziehung zu Objekt oj“. Im 12 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN folgenden werden wir anstelle der Objektmenge O nur noch die Knotenmenge V betrachten. Wir sagen daher “vi steht in Beziehung zu vj“. Bei der Modellierung der Kanten ist folgendes zu beachten: 2 1 Abbildung 3.1: Darstellung eines Links • Ist eine Kante gerichtet, so gibt sie die Richtung der zwischen zwei Objekten existierenden Beziehung an, wie beispielsweise des von einer Website auf eine andere Website verweisenden Hyperlinks (Abb. 3.1). 2 c(v1,v2)=56 1 Abbildung 3.2: Darstellung einer Telefonleitung Ungerichtete Kanten stehen für die Bidirektionalität der ursprünglichen Beziehung, wie dies z.B. bei einer Telefonleitung der Fall ist (Abb. 3.2). • Bei einer gewichteten Kante steht das entsprechende Gewicht für die Größe der Beziehung zwischen zwei Objekten, beispielsweise für die 13 Datenübertragungskapazität einer Telefonleitung in kb/s (Abb. 3.2) oder für die direkte Entfernung zwischen zwei Bahnhöfen in km. In ungewichteten Graphen wird nur das Vorhandensein einer Beziehung zwischen Objekten berücksichtigt und deren Größe implizit als “1“ angenommen. Unser Graphenmodell wird dann dargestellt durch seine Adjazenzmatrix. Sind die Kanten von G ungewichtet, so bestimmt sich die zugehörige Adjazenzmatrix A = (aij ) durch aij ( 1 = 0 ( 1 = 0 , falls “vi steht in Beziehung zu vj“ , sonst , falls (vi , vj ) ∈ E . , sonst Sind die Kanten gewichtet, so wird noch eine Gewichtsfunktion c : E → R+ für die Bewertung der Kanten vorgesehen. Die zugehörige Adjazenzmatrix W = (wij ) bestimmt sich dann durch wij ( c(vi , vj ) = 0 ( c(vi , vj ) = 0 , falls “vi steht in Beziehung zu vj“ , sonst , falls (vi , vj ) ∈ E . , sonst Betrachten wir nun wieder die reale, also die zu modellierende Situation. So wie es in einer Gruppe von Personen mehr und weniger herausragende Persönlichkeiten gibt (Abb. 3.3), so gibt es im WWW Websites mit unterschiedlicher Informationsqualität, und auch in Telefon- und Streckennetzen lassen sich für die beteiligten Objekte gewisse intuitive Gütekriterien angeben. 14 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Abbildung 3.3: mehr und weniger herausragende Persönlichkeiten Diese intuitive Beurteilung der in den verschiedenen Fällen beteiligten Objekte soll nun durch eine explizite Zuordnung eines Maßes konkretisiert werden. Dieses Maß ordnet dann jedem Objekt, bzw. dem diesem Objekt entsprechenden Knoten, eine (i.a. nichtnegative) reelle Zahl zu. Dabei wird nur die nach der Modellierung der ursprünglichen Situation noch vorhandene Information herangezogen, d.h. nur strukturelle Eigenschaften werden berücksichtigt. Betrachten wir die aufgeführten Beispiele, so werden hierbei Eigenschaften wie Alter und Aussehen einer Person, Inhalt und Speicherbedarf einer Website, Telefonkosten, Größe des Bahnhofsrestaurants und ähnliches ignoriert. Definition 3.1. Ein Zentralitätsmaß Z (auch Zentralitätsindex oder kurz Zentralität) ist also eine Abbildung Z : V → R+ 0 , vi 7→ Z(vi ), i = 1, . . . , n. 15 Definition 3.2. Ein Spaltenvektor, dessen Komponenten die Zentralitätswerte sämtlicher Knoten enthalten, sei bezeichnet durch Z(G), d.h. Z(G) := (Z(v1 ), . . . , Z(vn ))T . Diesen Vektor bezeichnen wir als Zentralitäts-Vektor. In einem Graphen wird ein Zentralitätsmaß also jedem Knoten, abhängig von seiner strukturelle Lage im Graphen, einen (i.a. nichtnegativen) reellen Wert zuordnen. Dieser Wert soll beschreiben, wie wichtig oder zentral dieser Knoten relativ zu den anderen Knoten des Graphen ist. Einige Möglichkeiten, ein solches Zentralitätsmaß zu definieren, werden im folgenden detailliert vorgestellt. Dabei wird klar werden, was es für einen Knoten bedeutet, in einem Graphen im Vergleich zu den anderen Knoten eine bzgl. verschiedener Kriterien mehr oder weniger wichtige bzw. zentrale Position einzunehmen. Das Ergebnis der Untersuchung des Modells soll dann von einer solchen Gestalt sein, dass daraus eine Interpretation der gesuchten Eigenschaften der realen Welt möglich ist, und auch zu nachvollziehbaren Bewertungen führt. So wird bei der Untersuchung der tatsächlichen Hierarchiestruktur eines Unternehmens erwartet werden, dass der Chef des Unternehmens eine wichtigere und damit zentralere Position einnimmt, als der Auszubildende im 1. Lehrjahr. Dem mit dem Chef identifizierten Knoten könnte dazu beispielsweise ein vergleichsweise hoher Zentralitätswert zugeordnet werden, dem Auszubildenden-Knoten ein vergleichsweise niedriger. ➤ Die hier vorgestellten Zentralitätsmaße sollen daher die Eigenschaft haben, dass der Zentralitätswert Z(vi ) eines Knotens vi umso höher ist, je größer das Ansehen, die Popularität, der Status, die Prominenz, die Wichtigkeit eines durch einen Knoten vi repräsentierten Objektes bzgl. unterschiedlicher Bewertungskriterien ist. 16 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Welche der Zentralitäten letztendlich überhaupt bzw. besonders gut zur Bewertung einer Situation geeignet ist, wird von etlichen Faktoren abhängen. • Sollen zur Beurteilung eines Knotens strukturelle Eigenschaften seiner nächsten Umgebung oder des gesamten Graphen herangezogen werden, soll das Zentralitätsmaß also lokal oder global bestimmt werden? • Sind die Beziehungen uni- oder bidirektional, betrachten wir also gerichtete oder ungerichtete Graphen? • Was soll das Maß überhaupt aussagen? Es wird auch von großer Bedeutung sein, ob die durch die Kanten modellierten Beziehungen zwischen den Objekten auf eine gewisse Weise transitiv sind. Dies soll an zwei unterschiedlichen Situationen verdeutlicht werden. 1. Werden die Kanten zum einen beispielsweise ein Vorgesetztenverhältnis modellieren, d.h. (vPj , vPi ) ∈ E bedeutet “Pi ist Vorgesetzter von Pj“, so ist hier eine gewisse Transitivität erkennbar. Ist nämlich “P1 Vorgesetzter von P2“ und “P2 Vorgesetzter von P3“, so ist P1 in gewisser Weise auch Vorgesetzter von P3 . 2. Modelliert andererseits eine Kante (vPj , vPi ) die Beziehung “Pi hasst Pj“, so würde aus “P1 hasst P2“ und “P2 hasst P3“ keineswegs folgern, dass P1 auch P3 hasst. Ganz im Gegenteil, wir könnten daraus, aufgrund des gemeinsamen “Feindes“ P2 , sogar eine gewisse Sympathie von P1 für P3 folgern. Eine solche Beziehung nennen wir negativ transitiv. Auch ist darauf zu achten, dass die Modellierung einer Situation ausschließlich mit Beziehungen des gleichen Typs geschieht. Kombinationen von Beziehungen wie Vorgesetztenverhältnis und Freundschaft führen nicht zu sinnvollen Ergebnissen. Bevor wir die Graphen bewerten können, wollen wir an ihnen zunächst einige Transformationen durchführen. Durch diese Vereinfachungen geht keine für die Bewertung relevante Information verloren. 17 2 2 1 1 Abbildung 3.4: Eliminierung von Schleifen Beziehungen, die Objekte zu sich selbst haben, werden bei der Bestimmung von Zentralitätsmaßen keine Rolle spielen, wir werden Schleifen daher ignorieren (Abb. 3.4). 2 2 c(v2,v3)=2 c(v1,v2)=3 3 1 3 1 Abbildung 3.5: Eliminierung von Mehrfachkanten In nichteinfachen Graphen auftretende Mehrfachkanten werden durch eine entsprechende Kantengewichtung zu einer Kante zusammengefasst (Abb. 3.5). Dabei ist zu beachten, dass alle hier vorgestellten Zentralitätsmaße (mit Ausnahme des Hubbell Index H, 3.2.2) eine allgemeine Kantengewichtung von 1 voraussetzen. Sämtliche im folgenden betrachteten Graphen G = (V, E) seien daher ohne Mehrfachkanten und ohne Schleifen; dabei sei |V | = n, |E| = m. A = (aij ) im ungewichteten Graphen bzw. W = (wij ) im gewichteten Graphen sei die Adjazenzmatrix von G. Seien 1 := (1, . . . , 1)T der mit Einsen gefüllte Spaltenvektor und I die Einheitsmatrix jeweils passender Dimension. 18 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Im folgenden wollen wir zwei grundsätzlich verschiedene Ansätze zur Bewertung der Knoten eines Netzwerkes, und damit der Definition von Zentralitätsindizes betrachten. 1. Ansatz: Kapitel 3.2 Nachbarzentralitäten Zum einen bestimmen wir den Zentralitätswert Z(vi ) eines Knotens vi in Abhängigkeit von seinen Nachbarn vj und/oder deren Zentralitätswerten Z(vj ). Ein hoher Zentralitätswert Z(vi ) wird dabei beispielsweise erreicht werden, wenn besonders viele und/oder besonders hoch bewertete Knoten vj in der Nachbarschaft von vi liegen. 1 6 3 4 5 2 7 Abbildung 3.6: Beispielgraph G1 So würden im Beispielgraphen G1 (Abb. 3.6) die Knoten v3 und v5 von einem Zentralitätsmaß Z1 , welches nur die Anzahl der Nachbarn berücksichtigt, höchste Werte in diesem Graphen erhalten. Dagegen könnte ein anderes Maß Z̃1 , welches auch die Werte der Nachbarn eines Knotens vi in dessen Bewertung Z̃1 (vi ) miteinbezieht, dem augenscheinlich sehr zentralen, zwischen den Knoten v3 und v5 liegenden Knoten v4 ein höheres Maß an Zentralität zuerkennen. In einem sozialen Netzwerk, beispielsweise bestehend aus einer Menge von Personen (repräsentiert durch Knoten) und der unter diesen Personen stattfindenden Kommunikation (Kanten), ließe sich diese unterschiedliche Bewertung wie folgt interpretieren: einerseits ist eine Person einflussreich, wenn sie mit vielen anderen Personen kommuniziert (Zentralitätsmaß Z1 ), andererseits wird einer Person hoher Einfluss bestätigt, wenn die ihr nahestehenden Personen ihrerseits einflussreich sind (Zentralitätsmaß Z̃1 ). 19 2. Ansatz: Kapitel 3.3 Entfernungszentralitäten Zum anderen werden wir den Zentralitätswert eines Knotens vi abhängig von seiner Entfernung zu den anderen Knoten eines Netzwerkes bestimmen. Dabei werden wir nur ungerichtete Graphen betrachten. Ein hoher Zentralitätswert Z(vi ) wird dabei beispielsweise erreicht werden, wenn vi zu den anderen Knoten kleine Abstände hat oder auf vielen sie verbindenden kürzesten Wegen liegt. 5 1 2 3 4 6 7 Abbildung 3.7: Beispielgraph G2 So würde im Beispielgraphen G2 (Abb. 3.7) der Knoten v3 von einem Zentralitätsmaß Z2 , welches nur den Maximalabstand zu den anderen Knoten berücksichtigt, den höchsten Wert in diesem Graphen erhalten. Dagegen könnte ein anderes Maß Z̃2 , welches die durch einen Knoten führenden kürzesten Wege zählt, dem Knoten v4 ein höheres Maß an Zentralität zuerkennen. In einem sozialen Netzwerk ließe sich diese unterschiedliche Bewertung wie folgt interpretieren: einerseits ist eine Person einflussreich, wenn sie jede andere Person schnell erreichen kann (Zentralitätsmaß Z2 ), andererseits wird einer Person hoher Einfluss bestätigt, wenn sie die Kommunikation vieler anderer Personen beeinflusst (Zentralitätsmaß Z̃2 ). Bei den Entfernungszentralitäten wird außerdem das Zentrum eines Sterns eine besondere Stellung einnehmen. Betrachten wir den Stern S9 (Abb. 3.8), so sehen wir, dass sein zentraler Knoten v9 sehr kleine Abstände zu den anderen Knoten hat, und auch auf sehr vielen kürzesten Wegen der anderen Knoten liegt. Einige extremale Eigenschaften besitzt nur das Zentrum eines Sterns (gleichzeitig). 20 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 1 2 3 8 9 7 6 4 5 Abbildung 3.8: Stern S9 mit 9 Knoten In einem Graphen gleicher Größe ✓ hat es den maximal möglichen Grad ✓ liegt es auf kürzesten Wegen von der größtmöglichen Anzahl an Paaren anderer Knoten ✓ hat es den minimal möglichen Abstand zu allen anderen Punkten Auch intuitiv erkennen wir den zentralen Knoten eines Sterns als herausragende Position. In einem sozialen Netzwerk beispielsweise hat eine solch zentrale Person ausgezeichnete Kommunikationsmöglichkeiten, da die Wege zur Weitergabe von Information kurz sind, und auch die Kommunikation der übrigen Personen untereinander maßgeblich beeinflusst wird. Drei der im Kapitel Entfernungszentralitäten (3.3) vorgestellten Zentralitätsmaße werden wir so definieren, dass das Zentrum eines Sterns den jeweils höchstmöglichen Zentralitätswert erreicht. Die als erstes vorgestellte Stresszentralität (3.3.1) ähnelt den anderen, anschließend vorgestellten Maßen in dem Sinne, dass sie in Abhängigkeit von kürzesten Wegen und somit von der Entfernung von Knotenpaaren bestimmt wird. Allerdings wird der Stern hierbei im allgemeinen nicht das höchstmögliche Maß an Zentralität erreichen. 3.1 Popularitätsindex P Zunächst wollen wir aber den Popularitätsindex P betrachten. Dieser stellt einen Sonderfall dar, da seine Knotenbewertung durch beide Ansätze interpretiert werden kann. Die danach vorgestellten Maße werden gemäß ihrer Interpretation bzgl. obiger Ansätze in den beiden Kapiteln Nachbarzentralitäten (3.2) und Entfernungszentralitäten (3.3) getrennt behandelt. 3.1 Popularitätsindex P Der Popularitätsindex ist unter den hier vorgestellten Zentralitätsmaßen das am leichtesten zu bestimmende. Gleichzeitig wird an ihm auf einfache Art und Weise deutlich, was Zentralität in einem Graph bedeuten kann. Um eine intuitive Herleitung des Popularitätsindex zu erhalten, betrachten wir das im folgenden beschriebene soziale Netzwerk: Gegeben sei eine (endliche) Menge von n Individuen, die eine Abstimmung wie folgt durchführen: • Jedes Individuum steht zur Wahl, d.h. kann gewählt werden • Jedes Individuum hat die Möglichkeit, jedem der anderen Individuen jeweils höchstens eine Stimme zu vergeben (d.h. 0 oder 1) Dadurch ergibt sich, dass jedes Individuum höchstens n−1 Stimmen abgeben und auch höchstens n − 1 Stimmen erhalten kann. ➤ Unser Ziel ist es jetzt also, jedem der beteiligten Individuen eine von dieser Abstimmung abhängige (intuitiv nachvollziehbare) Zentralitätsbewertung zuzuordnen. 21 22 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Dazu modellieren wir diese Abstimmung als gerichteten, ungewichteten Graph G = (V, E), wobei V = {v1 , . . . , vn } die Menge der daran beteiligten Individuen repräsentiert und die Kanten in E die abgegebenen Stimmen beschreiben, d.h. (vi , vj ) ∈ E gdw. “vi wählt vj“. Wir definieren die Adjazenzmatrix A von G also durch ( 1 , falls “vi wählt vj“ aij = . 0 , sonst Die Popularität eines an dieser Abstimmung beteiligten Individuums betrachten wir als umso größer, je mehr Stimmen es erhält. Wir nehmen alle Stimmen als gleichwertig an und definieren den Popularitätsindex P durch die Anzahl der für ein Individuum abgebenen Stimmen. Um uns bei unserer Intuition nicht zu sehr auf soziale Netzwerke zu versteifen, betrachten wir nun ein völlig anderes Netzwerk. Gegeben sei eine Menge von n Websites mit ihrer zugehörigen Hyperlinkstruktur. ➤ Unser Ziel ist es jetzt, jeder der beteiligten Websites eine von ihrer strukturellen Lage abhängige (intuitiv nachvollziehbare) Zentralitätsbewertung zuzuordnen. Dazu betrachten wir G = (V, E) als einen knoteninduzierten Teilgraphen des durch die Hyperlinkstruktur des WWW gegebenen gerichteten, ungewichteten Graphen. Die Knoten V = {v1 , . . . , vn } repräsentieren hierbei die Menge der Websites des WWW, und die Kanten beschreiben die durch V induzierte Hyperlinkstruktur, d.h. (vi , vj ) ∈ E gdw. Seite “vi enthält einen Hyperlink auf Seite vj“. Wir definieren die Adjazenzmatrix A von G also durch ( aij = 1 , falls “vi enthält einen Hyperlink zu vj“ . 0 , sonst So erscheint es hier, zumindest als erste Näherung, sinnvoll, einer Seite aufgrund einer hohen Anzahl auf sie verweisender Links einen hohen Zentralitätswert zuzuerkennen. Hierbei soll also indirekt das Expertenwissen der an 3.1 Popularitätsindex P 23 der Entstehung und Vergrößerung des WWW aktiv beteiligten Web-Designer ausgewertet werden, welche im allgemeinen nur dann einen Hyperlink zu einer gewissen Seite setzen, falls diese ihrer Meinung nach “gute“ Informationen enthält, d.h. auf eine gewisse Art und Weise wichtig bzw. zentral ist. Wir betrachten jeden Hyperlink als gleichwertig und definieren den Popularitätsindex durch die Anzahl der auf eine Website verweisenden Hyperlinks. Betrachten wir unser Graphenmodell, so ordnet P also jedem Knoten seinen Eingangsgrad zu, d.h. P(vi ) = din (vi ) für alle vi ∈ V. Der Popularitätswert eines Knotens vi ist also nur von seiner direkt adjazenten Umgebung abhängig, weiter entfernte Knoten haben keinerlei Einfluss, d.h. der Popularitätsindex ist lokal bestimmt. Die tatsächliche Berechnung des Popularitätsindex ist dann mit Hilfe der zu einem Graphen G gehörenden Adjazenzmatrix sehr einfach. Da die Spalten der Adjazenzmatrix A = (aij ) von G jeweils die in einen Knoten eingehenden Kanten beschreiben, und man den Eingangsgrad eines Knotens demnach durch Aufsummieren der entsprechenden Spalteneinträge erhält, d.h. din (vi ) = n X aji j=1 ergibt sich für den Popularitäts-Vektor von G P(G) = (P(v1 ), . . . , P(vn )) = (din (v1 ), . . . , din (vn )) ! à n n P P = aj1 , . . . , ajn j=1 = ¡ j=1 (AT 1)1 , . . . , (AT 1)n = AT 1. ¢ 24 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN P ist sowohl Nachbar- als auch Entfernungszentralität: 1. P(vi ) ist also nur von der Anzahl der Nachbarn von vi abhängig, kann also zum ersten Ansatz gehörend interpretiert werden. 2. Andererseits beschreibt P(vi ) auch die Anzahl der Knoten der Entfernung 1 und erfüllt daher auch die im zweiten Ansatz geforderten Eigenschaften. Weiterhin ist der in einem einfachen, ungerichteten Graphen mit n Knoten maximal mögliche (Eingangs-)Grad eines Knoten vi gegeben durch din (vi ) = n − 1. Das Zentrum eines Sterns vZ erfüllt diese Maximalbedingung, d.h. es gilt auch din (vZ ) = n − 1. ✫ Popularitätsindex P am Beispielgraphen GB Um den Popularitätsindex und weitere in den nächsten Abschnitten definierte Zentralitätsmaße an einem Beispiel zu erläutern, betrachten wir den durch die folgende Adjazenzmatrix B dargestellten Graphen GB . B= 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 Abb. 3.9 zeigt eine Einbettung des resultierenden Graphen. 3.1 Popularitätsindex P 25 2 4 3 7 1 5 6 Abbildung 3.9: Beispielgraph GB Für den Popularitätsindex ergibt sich also P(GB ) = B T · 1 0 0 0 0 1 0 = 0 0 0 0 0 0 0 0 0 0 0 0 1 1 = 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 1 1 0 0 = (1, 0, 4, 3, 2, 0, 2)T . T · · 1 1 1 1 1 1 1 1 1 1 1 1 1 1 26 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Abb. 3.10 zeigt eine Einbettung des Beispielgraphen GB , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.10: Popularitätsindex am Beispielgraph GB 3.2 Nachbarzentralitäten Im folgenden sollen nun, wie bereits in (Kapitel 3, S. 18) angekündigt, Zentralitätsmaße vorgestellt werden, welche die Knoten eines Netzwerkes in Abhängigkeit von ihren Nachbarn bewerten. Dabei betrachten wir in dieser Reihenfolge den Status-Index von Katz, den sehr allgemeinen Hubbell-Index, die Standard-(Eigenvektor-)Zentralität und die Verhandlungszentralität von Bonacich, den in der Internet-Suchmaschine Google verwendeten Index PageRank, sowie die beiden Maße Hubs und Authorities von Kleinberg. 3.2.1 Status-Index S Als ein weiteres Zentralitätsmaß stellte Leo Katz 1953 den sogenannten (New) Status-Index vor [17]. Er entstammt der Analyse sozialer und emotionaler Beziehungen zwischen Mitgliedern einer Gruppe, der Soziometrie. Für eine solche Analyse werden zunächst in einem soziometrischen Test unter anderem die Sympathien zwischen den einzelnen Gruppenmitgliedern ermittelt. Daraus sollen dann typische Positionen wie z.B. der Star, der Führer, der Außenseiter, der Sündenbock usw. bestimmt werden. 3.2 Nachbarzentralitäten 27 Bei der Auswertung erwies es sich jedoch als nicht zufriedenstellend, den aus rein lokalen Eigenschaften des Graphen bestimmten Popularitätsindex (3.1) als gültig anerkennen zu müssen. Daher wurde dieser Ansatz erdacht, welcher bei der Bewertung des Status eines einzelnen Gruppenmitgliedes (globale) Eigenschaften des gesamten Graphen mit einbezieht. Um die hierbei zur Beschreibung von Zentralität verwendeten Beurteilungskriterien zu erläutern, betrachten wir wieder die in (3.1) beschriebene Abstimmung. Gegeben sei also wieder ein gerichteter, ungewichteter Graph G = (V, E), wobei V = {v1 , . . . , vn } die Menge der an der Abstimmung beteiligten Individuen repräsentiert und die Kanten in E die abgegebenen Stimmen beschreiben, d.h. (vi , vj ) ∈ E gdw. “vi wählt vj“. Sei also A die Adjazenzmatrix des gerichteten, ungewichteten Graphen G, d.h. für die Einträge von A gilt ( aij = 1 , falls “vi wählt vj“ . 0 , sonst Bei der Bestimmung des Status-Index S(vi ) einer Person vi wird im Gegensatz zum Popularitätsindex P (3.1) nicht nur berücksichtigt, wie viele Stimmen eine Person vi erhält, sondern auch, von wem vi gewählt wird. Die hier eingesetzte Methode zählt dabei nicht nur die direkt für vi abgegebenen Stimmen, sondern berücksichtigt auch den Status jener, die vi gewählt haben sowie deren Wähler usw. Um diese Vorgehensweise mathematisch formulieren zu können, zunächst folgende Definition 3.3. Das Gewicht eines Weges (vi , va ), (va , vb ), . . . , (vz , vj ) von vi nach vj sei das Produkt der Gewichte der daran beteiligten Kanten, also c(vi , va ) · c(va , vb ) · · · · · c(vz , vj ). Es folgt unmittelbar, dass in ungerichteten Graphen alle Wege das Gewicht 1 haben. 28 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Satz 3.4. Sei W = (wij ) die Adjazenzmatrix eines gewichteten, einfachen Graphen ohne Schleifen. Ein Eintrag (W l )ij der l-ten Potenz von W ist gleich die Summe der Gewichte aller Wege der Länge l von vi nach vj . Beweis: vollständige Induktion: l = 1 : (W 1 )ij = wij = c(vi , vj ) ist das Gewicht des (einzigen) Weges der Länge 1 von vi nach vj . Induktionsannahme: Für l ∈ N sei (W l )ij die Summe der Gewichte aller Wege der Länge l von vi nach vj . P Es ist dann (W l+1 )ij = nk=1 (W l )ik · wkj . Jeder Weg der Länge l +1 von vi nach vj setzt sich zusammen aus einem Weg der Länge l von vi zu einem vk ∈ V , und einer Kante (vk , vj ). (W l )ik ist nach Induktionsannahme die Summe der Gewichte aller Wege der Länge l von vi nach vk . Daher ist (W l )ik · wkj die Summe der Gewichte derP Wege der Länge l + 1 von vi nach vj , deren letzte Kante (vk , vj ) ist. Also ist nk=1 (W l )ik · wkj die Summe der Gewichte aller Wege der Länge l + 1 von vi nach vj . ■ Korollar 3.5. Ist insbesondere W = A die Adjazenzmatrix eines ungewichteten, einfachen Graphen ohne Schleifen, so ist (Al )ij die Anzahl der Wege der Länge l von vi nach vj . ■ P Für z.B. l = 2 ist (A2 )ij = nk=1 aik ·akj ; für k = 1, . . . , n ist dabei aik ·akj = 1 gdw. aik = 1 und akj = 1, d.h. gdw. im Graphen G eine Kante von vi nach vk und eine Kante von vk nach vj existiert. 3.2 Nachbarzentralitäten Fassen wir die Matrix A wieder als Adjazenzmatrix der betrachteten Abstimmung auf, so bedeutet das: aik · akj = 1 gdw. “vi wählt vk und vk wählt vj“. So wie die Spaltensummen von A die Anzahl der direkt für die entsprechende Person abgegebenen Stimmen angeben, so interpretieren wir die Spaltensummen von A2 als die jeweils für eine Person über Wege der Länge 2 indirekt abgegebenen Stimmen, die Spaltensummen von A3 als die jeweils über Wege der Länge 3 abgegebenen usw. Der Status-Index ergibt sich dann aus der Aufsummierung all dieser Stimmen, die passend gewichtet (abgeschwächt) werden, um die geringere Effektivität von weniger direkter Zustimmung zu berücksichtigen. Dieses Konzept der Abschwächung soll im folgenden erläutert werden: Dazu betrachten wir eine von der zu untersuchenden Gruppe abhängige Konstante ϕ ∈ [0, 1]. Interpretieren wir die Kanten von G als Kanäle für die Weitergabe von Information, so drückt die Konstante ϕ die Wahrscheinlichkeit der Wirksamkeit einer direkten Verbindung aus, d.h. die Wahrscheinlichkeit, dass eine von vi über die Kante (den Informationskanal) (vi , vj ) mitzuteilende Information auch tatsächlich bei vj ankommt. ϕ = 0 bedeutet also vollständige Abschwächung, ϕ = 1 hingegen keine Abschwächung. Ein Weg der Länge k ist dann mit der Wahrscheinlichkeit ϕk wirksam. Die zu den Spaltensummen von A, A2 , usw. passenden Gewichte sind demnach ϕ, ϕ2 , usw. Wir definieren T := ϕA + ϕ2 A2 + · · · + ϕk Ak + · · · ∞ X = ϕ l Al . l=1 ϕ kann dabei nicht beliebig gewählt werden, um Konvergenz zu erreichen. Um den zulässigen Bereich von ϕ zu bestimmen, benötigen wir einige vorbereitende Hilfssätze. Lemma 3.6. Sei M ∈ Rn×n , x ∈ Rn , λ ∈ R. Es gilt: M x = λx ⇒ M l x = λl x 29 30 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Beweis: vollständige Induktion: Sei M x = λx l = 1 : M l x = M x = λx = λl x Induktionsannahme: es gelte M l−1 x = λl−1 x ⇒ M l x = M M l−1 x = M λl−1 x = λl−1 M x = λl−1 λx = λl x ■ Lemma 3.7. Sei p ∈ R. Es gilt: p ∈ (0, 1) ⇒ ∞ X pl konvergiert l=1 Beweis: Sei p ∈ (0, 1). Dann gilt 1 = 1 + p − p + p2 − p2 + · · · + pr+1 − pr+1 = 1 + p + p2 + · · · + pr+1 − (p + p2 + · · · + pr+1 ) = pr+1 + r P pl − p · l=0 = pr + (1 − p) · r P r P pi l=0 pl l=0 ⇒ r X pl = 1 − pr+1 1−p pl = 1 − pr+1 −1 1−p = p · (1 − pr ) 1−p l=0 ⇒ r X l=1 < 1 . 1−p ■ 3.2 Nachbarzentralitäten 31 Lemma 3.8. Sei M eine reellwertige Matrix, kM k∗ eine Matrixnorm von M . Dann gilt: kM k∗ < 1 ⇒ ∞ X M l konvergiert l=1 Beweis: Mit den Rechenregeln für Normen und mit Lemma 3.7 gilt k r X l ∗ Mk ≤ l=1 r X kM l k∗ l=1 ≤ r X (kM k∗ )l l=1 = (kM k∗ ) · (1 − (kM k∗ )r ) . 1 − kM k∗ Wegen kM k∗ ∈ (0, 1) ist lim (kM k∗ )r = 0, r→∞ ⇒ k ∞ X l=1 M l k∗ = lim k r→∞ r X M l k∗ l=1 (kM k∗ ) · (1 − (kM k∗ )r ) ≤ lim r→∞ 1 − kM k∗ kM k∗ = . 1 − kM k∗ ■ 32 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Jetzt können wir eine für die Konvergenz von reichende Bedingung formulieren. P∞ l=1 M l notwendige und hin- Satz 3.9. Sei M ∈ Rn×n , sei λmax der größte Eigenwert von M . Dann gilt: λmax < 1 ⇔ ∞ X M l konvergiert l=1 Beweis: ⇐: indirekt: Sei λmax ≥ 1, sei xmax Eigenvektor von M zu λmax mit kxmax k = 1 ⇒ k s X l ∗ Mk ≥ k l=1 s X M l xmax k l=1 = k s X λlmax xmax k l=1 = | s X l=1 ≥ s X 1 l=1 = ⇒ ⇒ lim k s→∞ ∞ X l=1 s X s M l k∗ → ∞ l=1 M l divergiert. λlmax | kxmax k | {z } =1 3.2 Nachbarzentralitäten 33 ⇒: Sei λmax < 1, δ := 1 − λmax , ² := δ/2. Sei k k² eine Norm auf Rn so, dass für die induzierte Matrixnorm gilt (Satz B.21): λmax ≤ kM k∗² ≤ λmax + ² Dann gilt: kM k∗² ≤ λmax + ² = λmax + = = < Lemma 3.8 ⇒ ∞ X δ 2 1 − λmax λmax + 2 λmax 1 + 2 2 1 M l konvergiert. l=1 ■ Der zulässige Wertebereich unseres Abschwächungsfaktors ϕ ergibt sich aus Korollar 3.10. Sei A Adjazenzmatrix eines Graphen G, 0 < ϕ ∈ R, λmax der größte Eigenwert von A. Dann gilt: X 1 < ⇔ ϕl Al konvergiert ϕ l=1 ∞ λmax ■ 34 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Wir wählen daher ϕ so, dass λmax < 1/ϕ gilt. Ein Eintrag tij von T enthält dann also die Summe an direkten und indirekten Wegen von vi nach vj , umgekehrt proportional (beachte ϕ ∈ [0, 1]) gewichtet zu ihrer Länge, d.h. tij = ∞ X ϕl (Al )ij l=1 = ∞ X ϕl · {Anzahl Wege der Länge l von vi nach vj } l=1 und die Spaltensummen von T ergeben die Gesamtanzahl aller in die einzelnen Knoten eingehenden Wege, ebenfalls entsprechend gewichtet. Wir definieren den Statuswert eines Knotens vi durch S(vi ) = = = n X 1 1 ϕ (A )ji + j=1 n X ∞ X n X ϕ (A )ji + · · · + 2 2 j=1 n X j=1 ϕl (Al )ji j=1 l=1 n X tji . j=1 Somit ergibt sich für den Status-Vektor von G S(G) = (S(v1 ), . . . , S(vn )) ! à n n X X tj1 , . . . , tjn = j=1 = T · 1. T Außerdem haben wir j=1 ϕk (Ak )ji + · · · 3.2 Nachbarzentralitäten T 35 = ϕA + ϕ2 A2 + · · · + ϕk Ak + · · · ¡ ¢ I + ϕA + · · · + ϕk−1 Ak−1 + · · · · ϕA µ ¶ ∞ P l l = I+ ϕ A · ϕA = l=1 = (I + T ) · ϕA = ϕA + ϕT A ⇒ TT ⇒ S(G) = ϕAT + ϕAT T T = TT · 1 = (ϕAT T T + ϕAT ) · 1 = ϕAT T T · 1 + ϕAT · 1. Mit P(G) = AT · 1 (siehe 3.1) erhalten wir eine andere Darstellung des Status-Index, nämlich S(G) = ϕAT · S(G) + ϕ · P(G), d.h. S(vi ) = ϕ · n X aji · S(vj ) + ϕ · P(vi ) j=1 = ϕ· X S(vj ) + ϕ · P(vi ). (vj ,vi )∈E Hierbei sieht man, dass sich das Statusmaß S eines Knotens vi bestimmt als die (mit Faktor ϕ) gewichtete Summe der Statusmaße der zu ihm adjazenten 36 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Knoten und seines eigenen Popularitätsindexes. Gehen wir zurück in die reale Welt und betrachten ein soziales Netzwerk, so hängt hierbei der Status einer Person also von der Anzahl und den Statuswerten der Personen ab, zu denen sie Beziehungen hat. ✫ Status-Index S am Beispielgraphen GB Wir betrachten den in (3.1, S. 25) definierten Graphen GB . Die Berechnung des größten Eigenwertes von B ergibt λmax = 1. Wählen wir für die Abschwächungskonstante ϕ einen Wert von 1/2, so gilt wie in Korollar 3.10 gefordert λmax = 1 < 2 = 1 1 2 = 1 ϕ und es ergibt sich wegen µ 1 (I − ϕB) = I− B 2 1 0 0 1 0 0 = 0 0 0 0 0 0 0 0 4 0 23 3 1 3 1 23 2 0 4 3 3 = 0 0 0 2 4 9 0 9 2 0 4 3 3 4 8 0 9 9 −1 ¶−1 0 0 1 0 0 0 0 1 3 1 3 2 3 0 0 0 1 0 0 0 0 0 0 1 0 11 9 5 3 13 9 0 0 0 0 1 0 0 0 0 0 0 4 0 3 1 1 2 0 3 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 1 0 − 0 0 0 0 2 0 0 0 1 0 0 0 1 0 0 1 0 0 1 1 2 3 1 4 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 −1 3.2 Nachbarzentralitäten 37 und µ TB ¶−1 1 = I− B −I 2 4 0 23 13 0 31 3 1 23 13 0 2 0 4 2 0 3 3 3 = 0 0 0 1 0 2 11 4 4 9 0 9 9 3 2 0 4 5 1 3 3 3 4 8 13 2 0 9 9 9 3 1 1 2 0 3 3 0 31 3 0 23 13 0 2 0 1 2 0 3 3 3 = 0 0 0 0 0 2 11 1 4 9 0 9 9 3 2 0 4 5 1 3 3 3 13 4 8 0 9 9 23 9 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 − 2 3 1 4 3 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 2 3 1 1 3 für unseren Beispielgraphen GB also folgender Status-Vektor: S(GB ) = TBT · 1 1 3 1 3 2 3 0 23 0 23 0 13 = 0 0 0 2 4 9 0 9 2 0 4 3 3 4 8 0 9 9 1 3 1 3 2 3 0 0 0 0 0 11 9 5 3 13 9 0 0 0 0 1 0 3 1 0 2 0 3 0 0 0 0 T · 2 3 1 1 3 1 1 1 1 1 1 1 0 0 0 0 0 0 1 38 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 1 3 1 3 2 3 0 0 0 0 0 0 0 2 3 2 9 4 9 0 0 0 0 0 0 4 8 4 2 2 1 3 3 3 9 3 9 11 5 13 = 31 31 32 · 9 3 9 1 2 0 0 0 1 3 3 0 0 0 0 0 0 2 0 0 0 1 13 3 µ ¶T 8 13 17 = , 0, , , 2, 0, 2 3 3 3 ≈ (2.67, 0, 4.33, 5.67, 2, 0, 2)T . 1 1 1 1 1 1 1 Abb. 3.11 zeigt eine Einbettung des Beispielgraphen GB , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.11: Status-Index am Beispielgraph GB 3.2 Nachbarzentralitäten 3.2.2 Hubbell-Index H Mit dem 1965 von Charles H. Hubbell [16] vorgestellten Zentralitätsindex H erhalten wir ein ähnliches Resultat wie Katz (3.2.1), jedoch in sehr allgemeiner Form. Auch hier liegen die Ursprünge in der Entwicklung geeigneter Methoden zur Analyse soziometrischer Tests, daher wählen wir zur Veranschaulichung wieder ein soziales Netzwerk. Gegeben sei also eine Gruppe von n Individuen mit untereinander existierenden (gerichteten) Beziehungen. Diese zwischen den Individuen bestehenden Beziehungen werden als Kanäle zur Ausübung von Einfluß interpretiert. Dabei soll jeweils ein Parameter wij , i, j ∈ {1, . . . , n}, die Größe des von einem Individuum i auf ein Individuum j direkt ausgeübten Einflusses angeben. Der Hubbell-Index H(vi ) eines Knotens (bzw. eines Individuums) vi ist dann ein Maß für den Einfluss, den vi innerhalb der Gruppe hat. Wir modellieren dieses soziale Netzwerk also wieder durch einen gerichteten, hier jedoch gewichteten Graph G = (V, E), wobei V = {v1 , . . . , vn } die Menge der zur Gruppe gehörenden Individuen repräsentiert und die Kanten in E die entsprechenden Beziehungen beschreiben, d.h. (vi , vj ) ∈ E gdw. “vi übt auf vj direkt Einfluss aus“. Gegeben sei nun desweiteren eine Abbildung c : E → R+ , welche jeder Kante e = (vi , vj ) ∈ E einen positiven reellen Wert c(vi , vj ) zuordnet, der die Größe des direkt von vi auf vj ausgeübten Einflusses angibt. Sei also W die Adjazenzmatrix des gerichteten, gewichteten Graphen G, d.h. für die Einträge von W gilt ( c(vi , vj ) , falls “vi übt auf vj direkt Einfluss aus“ . wij = 0 , sonst Bei der Bestimmung des Hubbell-Index H(vi ) einer Person vi wird nicht nur berücksichtigt, wie groß der von vi auf andere Personen ausgeübte Einfluss ist, sondern auch, auf wen dieser Einfluss ausgeübt wird. 39 40 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Wir betrachten eine allgemeine Formel zur Berechnung des Hubbell-Index (kurz HI) eines Knotens vi H(vi ) = qi + (xi1 + · · · + xin ), wobei xij den Beitrag von vj zum HI von vi bezeichne. qi sei ein “externer“ Beitrag zum HI von vi , d.h. wir befinden uns in einem offenen System, dessen äußere Einflüsse auf den Hubbell-Index durch q = (q1 , . . . , qn ) gegeben sind. Wir nehmen an, dass xij = wij · H(vj ) für i, j = 1, . . . , n gilt, d.h. der Beitrag von vj zum HI von vi ist proportional zum HI von vj selbst, wobei der Proportionalitätsfaktor die Größe des direkt von vi auf vj ausgübten Einflusses ist. Somit haben wir H(vi ) = qi + (wi1 · H(v1 ) + · · · + win · H(vn )) = qi + n P wij · H(vj ) j=1 und für den Hubbell-Vektor ergibt sich H(G) = (H(v1 ), . . . , H(vn )) à ! n n P P = q1 + w1j · H(vj ), . . . , qn + wnj · H(vj ) j=1 j=1 à ! n n P P = (q1 , . . . , qn ) + w1j · H(vj ), . . . , wnj · H(vj ) , j=1 j=1 also H(G) = q + W · H(G). (3.1) Der Hubbell-Index H(vi ) eines Knotens vi errechnet sich also aus den Bewertungen seiner Nachbarn, der Intensität der nachbarschaftlichen Beziehungen 3.2 Nachbarzentralitäten und einem externen Beitrag. In einem sozialen Netzwerk wird einer Person demnach ein hoher Einfluss zuerkannt, wenn sie viele einflussreiche Personen intensiv beeinflusst. Um eine etwas andere Interpretation des Hubbell-Index zu erhalten, betrachten wir die Adjazenzmatrix W des Graphen G und ihre Potenzen. Der Eintrag (W l )ij der l-ten Potenz der Matrix W = (wij ) enthält die Summe der Gewichte der im zugrundeliegenden Graphen gerichteten Wege der Länge l von vi nach vj (Satz 3.4). Das zu einem solchen Weg gehörende Gewicht berechnet sich als Produkt der GewichtePder an ihm beteiligten Kanten (Definition 3.3). Für z.B. l = 2 ist (W 2 )ij = nk=1 wik · wkj ; für k = 1, . . . , n ist das zu einem Weg (vi , vk ), (vk , vj ) der Länge 2 gehörende Gewicht daher wik · wkj = c(vi , vk ) · c(vk , vj ). Ein Eintrag (W 2 )ij der Matrix W 2 wird dann angesehen als der indirekt von vi auf vj über einen Knoten ausgeübte Einfluss, (W 3 )ij als der Einfluss über zwei Knoten usw. Durch Umformung von Gleichung (3.1) erhalten wir H(G) = (I − W )−1 · q. Es gilt wegen I = I + W − W + W2 − W2 + W3 − W3 + −··· = (I + W + W 2 + · · · ) − (W + W 2 + W 3 + · · · ) = I · (I + W + W 2 + · · · ) − W · (I + W + W 2 + · · · ) = (I − W ) · (I + W + W 2 + · · · ) mit W 0 := I (I − W )−1 = I + W + W2 + ··· + Wk + ··· = ∞ P l=0 W l =: Y . 41 42 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Um die Konvergenz dieser Reihe zu gewährleisten, muß für den größten Eigenwert µmax von W gelten: µmax < 1 (Satz 3.9). (Y )ij gibt also die Summe aus direktem und indirektem Einfluß an, den vi auf vj ausübt. Und damit haben wir ¡ ¢ H(G) = I + W + W 2 + · · · · q. Um die Ähnlichkeit des Hubbell-Index H mit dem Status Index S (3.2.1) zu verdeutlichen, setzen wir qi := 1 für i = 1, ..., n, d.h. q = 1, und W := ϕAT , ϕ ∈ [0, 1] konstant, A Adjazenzmatrix von G, T wie in (3.2.1). Wir erhalten so ³ ´ ¢2 ¡ H(ϕGT ) = I + ϕAT + ϕAT + · · · · 1 ³ ´ ¢2 ¡ = 1 + ϕAT + ϕAT + · · · · 1 = 1 + TT · 1 = 1 + S(G). Der Status-Vektor S(G) ist also bei entsprechender Matrix-Transformation im wesentlichen durch den Hubbell-Index H darstellbar. ▲ Da sich die Richtung der Beziehungen bei der ursprünglichen Herleitung des Hubbell-Index (Ausübung von Einfluss) von der des Status Index (Erhalt von Stimmen) unterscheidet, sind beim Hubbell-Index die aus einem Knoten ausgehenden Kanten, beim Status Index die eingehenden Kanten für die Höhe des einem Knoten zugeteilten Maßes verantwortlich. Um eine gleichartige Bewertung zu erhalten, muss daher für eines der Maße der transponierte Graph betrachtet werden. Der Hubbell-Index ist ein sehr allgemeiner Ansatz zur Zentralitäts-Bewertung von Graphen. Als einziges hier aufgeführtes Maß ermöglicht er die Analyse von Netzwerken mit gewichteten Beziehungen, zudem können externe Einflüsse in die Bewertung miteinbezogen werden. 3.2 Nachbarzentralitäten 43 ▲ Dies birgt allerdings die Gefahr, dass die ursprüngliche Situation bei der Modellierung durch Einstellung unzähliger Parameter in ihrem Wesen bis zur Unkenntlichkeit verändert wird. ✫ Hubbell-Index H am Beispielgraphen GB Wir betrachten den in (3.1, S. 25) definierten Graphen GB . Die Berechnung des größten Eigenwertes von B ergibt µmax = 1. Da für die Bestimmung des Hubbell-Index jedoch µmax < 1 gelten muss, setzen wir W := 12 B. Somit erfüllen wir die Bedingungen von Satz 3.9. Weiterhin setzen wir den Vektor der externen Einflüsse auf q := 1. Es ergibt sich wie in (3.2.1) ¶−1 1 = I− B 2 4 0 23 13 31 3 1 23 13 2 0 4 2 3 3 3 = 0 0 0 1 2 11 4 9 0 9 9 2 0 4 5 3 3 3 4 8 13 0 9 9 9 µ −1 (I − W ) 0 0 0 0 0 0 0 0 4 0 3 1 1 2 0 3 0 0 0 0 2 3 1 4 3 und daher für unseren Beispielgraphen GB der Hubbell-Vektor 44 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN H(GB ) = (I − W )−1 · 1 1 4 2 0 0 0 0 1 3 3 31 1 2 3 1 3 3 0 0 0 1 2 0 4 2 0 0 0 1 3 3 3 = 0 0 0 1 0 0 0 · 1 2 4 2 11 4 9 0 9 9 3 0 3 1 2 0 4 5 1 1 1 1 3 3 3 13 2 4 8 4 1 0 9 9 3 0 3 9 µ ¶T 7 7 8 35 20 43 = , , , 1, , , 3 3 3 9 3 9 ≈ (2.33, 2.33, 2.67, 1, 3.89, 6.67, 4.78)T . Abb. 3.12 zeigt eine Einbettung des Beispielgraphen GB , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.12: Hubbell-Index am Beispielgraph GB 3.2 Nachbarzentralitäten 3.2.3 Standardzentralität B Das 1972 von Bonacich [2] vorgeschlagene Zentralitätsmaß B etablierte sich als Standardzentralitätsmaß. Daher werden wir es etwas ausführlicher betrachten. Im folgenden werden wir es als Standardzentralität B bezeichnen, um es von einem weiter unten definierten, ebenfalls von Bonacich stammenden Maß zu unterscheiden. Die Bestimmung der Standardzentralität funktioniert nur bei symmetrischen Strukturen. Einige soziale Verhaltensweisen sind auf natürliche Art und Weise symmetrisch, wie z.B. sich zu unterhalten, Zeit gemeinsam zu verbringen, gemeinsam auszugehen und ähnliches. Auch könnte Freundschaft als nur auf gegenseitiger Basis funktionierend definiert werden. Andererseits gibt es Beziehungen, die asymmetrisch sind, wie die in (3.1) betrachtete Abstimmung. Für solche Strukturen sind die im folgenden vorgestellten Methoden nicht geeignet. Wir setzen also voraus, dass der betrachtete Graph G ungerichtet ist. Die zugehörige Adjazenzmatrix ist dann symmetrisch. Weiterhin gehen wir davon aus, dass der betrachtete Graph ungewichtet und zusammenhängend ist. Gegeben sei eine Menge von n Individuen, deren freundschaftliche Beziehungen untereinander bekannt sind. Wir modellieren diese Gruppe als ungerichteten, ungewichteten Graph G = (V, E), wobei V = {v1 , . . . , vn } die Menge der daran beteiligten Individuen repräsentiert und die Kanten in E die Freundschaften untereinander beschreiben, d.h. {vi , vj } in E gdw. “vi ist befreundet mit vj“ (und damit auch “vj ist befreundet mit vi“). Sei also A die Adjazenzmatrix des ungerichteten, ungewichteten Graphen G, d.h. für die Einträge von A gilt ( 1 , falls “vi und vj sind befreundet“ . aij = aji = 0 , sonst 45 46 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Die Bestimmung der Standardzentralität erfolgt auf drei völlig verschiedene Arten. Die dabei erhaltenen Ergebnisse in Form von Index-Vektoren unterscheiden sich nur durch deren Normierung (Länge). ➊ Als erstes erhalten wir den gesuchten Standardzentralitäts-Vektor B(G) als Lösung einer Minimalwertaufgabe. ➋ Danach konstruieren wir eine Folge, die gegen B(G) konvergiert. ➌ Die Standardzentralität B(G) wird als Lösung eines linearen Gleichungssystems bestimmt. ➍ Anschließend wird ein allgemeiner Vergleich zwischen dem HubbellIndex H(3.2.2) und der Standardzentralität von Bonacich durchgeführt. ➊ kleinste quadratische Abweichung Die in der Gruppe entstandenen Freundschaften werden hier aufgefaßt als das Resultat der Fähigkeit der einzelnen Individuen, mit anderen Individuen zu “interagieren“. Sei A die Matrix, welche diese Freundschaften beschreibt, d.h. A sei die zu G = (V, E) gehörende symmetrische Adjazenzmatrix. Wir suchen nun eine Funktion S : V → R+ 0 so, dass Si := S(vi ), i = 1, . . . , n, die Tendenz des durch vi repräsentierten Individuums beschreibt, Freundschaften mit anderen Mitgliedern der Gruppe einzugehen. Für i = 1, . . . , n sollte das Produkt Si · Sj dabei jeweils “nahe“ bei dem Wert der tatsächlichen Bindung zwischen vi und vj , nämlich aij liegen. In Matrixschreibweise formuliert suchen wir einen Vektor S := S(G), der die Summe der quadratischen Differenzen zwischen S T S und A minimiert, d.h. suche S = (S1 , . . . , Sn ) mit n X n X i=1 j=1 minimal. (Si · Sj − aij )2 3.2 Nachbarzentralitäten 47 Dies bezeichnet man als Methode der kleinsten Quadrate. Danach errechnet sich der Vektor S als Eigenvektor zum größten Eigenwert von A, wobei dessen Länge auf diesen größten Eigenwert normiert wird [2]. Wir definieren also B(G) := S. ➋ Konvergenz einer unendlichen Folge Wie wir bereits früher gesehen haben, erhalten wir ein einfaches Maß zur Bestimmung von Popularität, wenn wir jedem Individuum die Anzahl seiner Freunde zuordnen, d.h. X S1 (vi ) = 1 = P(vi ). {vi ,vj }∈E Dies entspricht dem Popularitätsindex P aus (3.1). Man betrachte nun einen Index zweiter Ordnung, welcher bestimmt wird, indem man bei der Aufsummierung befreundete Individuen mit deren Popularitätsindex (= Index erster Ordnung) gewichtet, d.h. S2 (vi ) = X S1 (vj ). {vi ,vj }∈E Es gibt auch keinen Grund, diese Überlegungen hier bereits zu beenden. Sollte der Index zweiter Ordnung besser als der Index erster Ordnung sein, so sollte ein Index dritter Ordnung, welcher befreundete Individuen mit deren Index zweiter Ordnung gewichtet, zu wiederum verbesserten Resultaten führen. Sei S0 := 1 ein mit Einsen gefüllter Spaltenvektor; die zu unserem ungerichteten Graphen G = (V, E) gehörende symmetrische Adjazenzmatrix sei A. Der Index erster Ordnung ist dann gerade S1 := A · S0 = AT · S0 = P(G). Für den Index zweiter Ordnung ergibt sich S2 := A · S1 = A2 · S0 und durch vollständige Induktion zeigt man leicht, dass sich der Index m-ter Ordnung bestimmt durch 48 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Sm := A · Sm−1 = Am · S0 . Für m → ∞ können die Einträge von Sm unendlich groß werden oder verschwinden. Führen wir jedoch einen bestimmten Korrekturfaktor ein, so erreichen wir, dass Sm gegen von Null verschiedene Maße konvergiert. Sei λ1 der größte Eigenwert von A. Nach jedem Iterationsschritt teilen wir das Ergebnis durch diesen größten Eigenwert, also Sm = A Sm−1 S0 = Am m . λ1 λ1 Satz 3.11. Sm konvergiert gegen einen Eigenvektor von A zum größten Eigenwert λ1 . Beweis: Sei also λ1 der größte Eigenwert von A. Wir nehmen an, dass |λ1 | > |λ2 |, . . . , |λn | gilt. Da A symmetrisch ist, existiert eine Orthonormalbasis aus Eigenvektoren {u1 , . . . , un } von A zu den reellen Eigenwerten {λ1 , . . . , λn } (Satz B.15). Dabei sei u1 ein Eigenvektor von λ1 mit ausschließlich nichtnegativen Einträgen [2]. Wegen span(u1 , . . . , un ) = Rn (Satz B.9) finden Pn wir mit geeigneten ci ∈ R, i = 1, . . . , n, eine Darstellung 1 = S0 = i=1 ci ui . Multiplikation beider Seiten mit u1 T ergibt u1 T · 1 = u1 T · = n P n P ci ui i=1 ci u1 T ui i=1 = c1 6= 0, da alle Einträge von u1 nichtnegativ sind und u1 6= (0, . . . , 0) gilt wegen u1 T u1 = 1. Es ist dann 3.2 Nachbarzentralitäten Sm 49 S0 λm 1 1 Am · m λ1 n c u P i i Am · m λ i=1 1 n P Am ui ci m λ1 i=1 n P λm ui ci i m λ1 i=1 µ ¶m n P λi c1 u1 + ui . λ1 i≥2 = Am · = = = = = Da wegen |λi | < |λ1 | für i = 2, . . . , n der Term (λi /λ1 )m für große m gegen Null konvergiert, gilt Sm → c1 u1 für m → ∞. lim Sm = c1 u1 ist wegen c1 6= 0 ein Eigenvektor zum Eigenwert λ1 . m→∞ ■ Wir definieren B(G) := lim Sm . m→∞ Der schließlich erhaltene Index (der Ordnung ∞) wird also durch einen Eigenvektor zum größten Eigenwert dargestellt. ➌ Lineare Gleichungen Wir wollen den Zentralitätswert eines Individuums in direkter Abhängigkeit der Zentralitätswerte seiner Freunde beschreiben. Wir nehmen dazu an, dass der Wert eines Individuums vi (im wesentlichen) der Summe der Werte der mit ihm befreundeten Individuen vj , j ∈ J ⊂ {1, . . . , n} entspricht. Betrachten wir eine allgemeine Gleichung zur Bestimmung eines Zentralitätsmaßes S := S(G) := (S(v1 ), . . . , S(vn )). Der Zentralitätswert Si := S(vi ) 50 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN eines Knotens vi , i = 1, . . . , n, berechne sich also als Summe der Zentralitätswerte der zu ihm adjazenten Knoten, d.h. Si = X Sj j∈J = X Sj (vi ,vj )∈E = n X (3.2) aij Sj j=1 = ai1 S1 + · · · + ain Sn . Dabei soll Sj ≥ 0 gelten für alle j = 1, . . . , n. In Matrix-Darstellung schreibt sich dieses lineare Gleichungssystem also als S = AS oder (A − I)S = 0 wobei S der Vektor der unbekannten Zentralitäten ist. Dieses Gleichungssystem hat jedoch nur unter der untypischen Nebenbedingung det(A − I) = 0 eine von Null verschiedene Lösung. Daher verändern wir Gleichung (3.2) durch Multiplikation der linken Seite mit der Konstanten λ und erhalten λSi = ai1 S1 + ... + ain Sn . In Matrix-Darstellung schreibt sich das lineare Gleichungssystem jetzt als λS = AS. Dies ist eine gewöhnliche Eigenwertgleichung, d.h. S ist Eigenvektor zum Eigenwert λ. Jede solche Matrix A hat Eigenvektoren und Eigenwerte, die Frage ist jedoch, ob eine gefundene Lösung den von uns an sie gestellten Anforderungen genügt. Wir fordern, dass jedes der Si nichtnegativ ist. Außerdem soll die Lösung eindeutig sein. 3.2 Nachbarzentralitäten 51 Satz 3.12. Jede symmetrische Adjazenzmatrix hat genau einen Eigenvektor u1 mit auschließlich positiven Einträgen und <u1 , u1 > = 1. Beweis: Da A eine symmetrische Adjazenzmatrix zu einem zusammenhängenden Graphen G ist, gibt es dazu einen Eigenvektor u1 = (u11 , . . . , u1n ) zum größten Eigenwert λ1 , dessen Einträge alle positiv sind, d.h. u1j > 0 für alle j = 1, . . . , n [2]. Da die Eigenvektoren {u1 , . . . , un } von A orthogonal sind und bei entsprechender Normierung ein Orthonormalsystem bilden, und daher insbesondere <ui , uj > = ui T uj = 0 für i 6= j gilt, enthält jeder der Eigenvektoren u2 , . . . , un positive und negative Komponenten, denn 1. Für r = 1, . . . , n gilt <ur , ur > = 1, daher ur 6= (0, . . . , 0). 2. Für k = 1, . . . , n sei uk = (uk1 , . . . , ukn ) mit ukl ∈ R . Angenommen, es gibt m ∈ {2, . . . , n}, so dass um nur nichtnegative Einträge hat. Dann gilt u1 T um = (u11 , . . . , u1n )T (um1 , . . . , umn ) = u11 · um1 + . . . + u1n · umn > 0, (da u1l · uml ≥ 0 für alle l = 1, . . . , n, und echt > 0 für mindestens ein l, da alle Einträge von u1 positiv) im Widerspruch zur Orthogonalität. 3. Die Annahme der Existenz eines Eigenvektors mit nur nichtpositiven Einträgen führt mit der gleichen Argumentation wie unter 2 zum Widerspruch. Daher ist S := u1 der von uns gesuchte eindeutige Lösungsvektor. ■ Wir definieren also B(G) := S = u1 . 52 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN ✫ Standardzentralität B am Beispielgraphen GB̃ Wir werden hier die Standardzentralität für einen Beispielgraphen bestimmen. Da wir uns hier auf symmetrische Graphen beschränken, ist eine Analyse des in den vorhergehenden Kapiteln betrachteten Beispielgraphen GB nicht möglich. Daher werden wir GB “leicht“ modifizieren. Betrachten wir daher nun den durch die folgende Adjazenzmatrix B̃ dargestellten Graphen GB̃ . B̃ = 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 1 0 1 0 1 1 0 0 1 0 1 0 1 0 0 0 1 0 1 1 0 0 1 0 1 0 1 0 0 1 1 1 1 0 Abb. 3.13 zeigt eine Einbettung des resultierenden Graphen. 2 4 3 7 1 5 6 Abbildung 3.13: (“leicht“ modifizierter) Beispielgraph GB̃ 3.2 Nachbarzentralitäten 53 Die Bestimmung des größten Eigenwertes führt zu λmax ≈ 3.359. Der zugehörige, auf 1 normierte Eigenvektor mit ausschließlich positiven Einträgen bestimmt sich approximativ zu B(GB̃ ) = u1 ≈ (0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500). Abb. 3.14 zeigt eine Einbettung des Beispielgraphen GB̃ , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.14: Standardzentralität am Beispielgraph GB̃ 54 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN ➍ Vergleich mit Hubbell-Index Die Standardzentralität B(G) bestimmt sich also als Eigenvektor zum größten Eigenwert der symmetrischen Adjazenzmatrix A ∈ {0, 1}n×n des ungerichteten, ungewichteten Graphen G = (V, E), so auch als Lösung der Eigenwertgleichung λS = AS. Im Vergleich dazu betrachten wir den unter (3.2.2) vorgestellten HubbellIndex H, der sich bestimmt als Lösung des Gleichungssystems S = q + W S. n×n Dabei ist H(G) := S der gesuchte Vektor der Zentralitätswerte. W ∈ (R+ 0) ist die Adjazenzmatrix des gerichteten, gewichteten Graphen G = (V, E). q ist ein Vektor mit externen, d.h. von außen auf das System wirkenden Einflüssen. Dieser beeinflusst die Zentralität der einzelnen Gruppenmitglieder unabhängig von deren Beurteilung durch die anderen Gruppenmitglieder. Hubbell macht keine Aussage darüber, auf welche Art und Weise dieser Vektor q zu bestimmen sei. Es ist also durchaus nicht abwegig, bei fehlender Information über diese externen Einflüsse die Definition q := 1 = (1, . . . , 1)T oder ähnliches zuzulassen. Umfassen die uns zur Analyse vorliegenden (soziometrischen) Daten also lediglich die innerhalb einer Gruppe bestehenden Freundschaften, Beziehungen, Vorlieben, Ablehnungen oder ähnliches, gegeben durch eine Matrix W , und haben wir über externe Einflüsse in Form eines Vektors q keine Erkenntnisse, so betrachten wir eine passende Definition von q als mathematische Annehmlichkeit, um ein abgesehen von der trivialen Nullösung i. a. unlösbares Gleichungssystem S = W S in ein lösbares inhomogenes System der Form S = q + W S zu transformieren. Einen ähnlichen Effekt hatte die Einführung des Parameters λ unter (➌, Lineare Gleichungen). Die Techniken von Hubbell und Bonacich zur Bestimmung eines Zentralitätsmaßes sind ähnlich. Vorteile und Nachteile sind im folgenden aufgeführt. 1. Hubbell benötigt die (willkürliche) Annahme eines Vektors q, der in keinem Bezug zu den innerhalb der Gruppe bzw. des Systems existierenden Zuständen steht. Der von Bonacich eingeführte Parameter λ ist nicht willkürlich zu den existierenden Daten hinzugefügt, sondern wird, als Eigenwert der inneren Struktur, von den Daten selbst “generiert“. 3.2 Nachbarzentralitäten 2. Der Vektor S := B(G) ist die auf eine Art optimale Datenreduktion der Matrix A; denn die Matrix S T S ist die beste Approximation für A bzgl. der Summe der quadratischen Abweichungen. Eine solche Interpretation gibt es für H(G) nicht. 3. Die Einträge von H(G) enthalten die Summen aller direkten und indirekten Pfade von einem Individuum zu allen anderen. Eine solche Interpretation gibt es für B(G) nicht. 4. Ein sehr wichtiger Unterschied: Die Bestimmung von H(G) ist auch bei nichtsymmetrischen Strukturen möglich, B(G) beschränkt sich auf symmetrische Graphen G. Außerdem ist H auch für gewichtete Graphen definiert. 3.2.4 Verhandlungszentralität V Bei den bisherigen Betrachtungen wurde einem Knoten eines Netzwerks immer dann ein (vergleichsweise) hoher Zentralitätswert zuerkannt, wenn er in dem betrachteten Netzwerk eine zentrale Position einnahm. Insbesondere wurde einem Individuum in den meisten Fällen dann ein höherer Wert zugewiesen, wenn es in Verbindung zu vielen anderen einflussreichen Individuen, d.h. Individuen mit ihrerseits hohem Zentralitätswert stand. Betrachtet man jedoch eine Menge in Verhandlung stehender Individuen, und soll das zugewiesene Maß den jeweils potentiell zu erwartenden Verhandlungserfolg in der gegebenen Konstellation widerspiegeln, so ist leicht einzusehen, dass der Kontakt zu schwachen Verhandlungspartnern (die beispielsweise nur wenige Kontakte haben) die eigene Position stärkt. Verbindungen zu starken Partnern, die ihrerseits viele Verhandlungspartner haben, schwächen hingegen die eigene Position. So gesehen stellt die Verhandlung eine negativ transitive Beziehung dar. Verhandelt nämlich P1 mit P2 und P2 mit P3 , so wird sich diese Verbindung zu P3 auf den von P1 zu erwartenden Verhandlungserfolg negativ auswirken, da P2 eben auch mit P3 Geschäfte macht. 55 56 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 1987 stellt Bonacich [4] eine weiteres Zentralitätsmaß vor, das flexibler als die zuvor vorgestellte Standardzentralität ist und die angesprochenen Überlegungen berücksichtigt. Gegeben seien n Individuen, die untereinander in Verhandlung stehen. Wir modellieren diese Situation als gerichteten, ungewichteten Graph G = (V, E), wobei V = {v1 , . . . , vn } die Menge der daran beteiligten Individuen repräsentiert und die Kanten in E die Verhandlungspartner miteinander verbinden, d.h. (vi , vj ) ∈ E gdw. “vi verhandelt mit vj“. Sei also A die Adjazenzmatrix des gerichteten, ungewichteten Graphen G, d.h. für die Einträge von A gilt ( 1 , falls “vi verhandelt mit vj“ aij = . 0 , sonst Das Zentralitätsmaß V wird von zwei Parametern α und β erzeugt. Der Parameter α bestimmt den Einfluss der Anzahl der Nachbarn eines Individuums auf seinen Zentralitätswert. Der Parameter β bestimmt den Grad, zu dem der Zentralitätswert eines Individuums eine Funktion der Werte seiner Nachbarn ist. Wir definieren dann die Verhandlungszentralität von vi durch V{α,β} (vi ) := V(vi ) := n X (α + β · V(vj )) aij . j=1 • Ist β positiv, so ist V ein “konventionelles“ Zentralitätsmaß, bei welchem der Wert eines jeden Individuums eine positive Funktion der mit ihm verbundenen Individuen und deren Werten ist (vgl. 3.2.2). • Wählen wir jedoch für β einen negativen Wert, so werden die oben angestellten Überlegungen bezüglich der veränderten Situation in einem Verhandlungsnetzwerk berücksichtigt. Die Werte der direkten Verhandlungspartner werden dann bei der Berechnung des eigenen Wertes negativ gewichtet. ▲ Daher sind hier auch negative Zentralitätswerte möglich! 3.2 Nachbarzentralitäten 57 Falls β = 0, so ist V ein rein lokales Maß. Mit steigendem Betrag von β werden die Zentralitätswerte der anderen Individuen stärker berücksichtigt. Die Höhe des Betrags von β spiegelt also den Grad wider, zu dem V lokales bzw. globales Zentralitätsmaß ist. Wegen n n X X V(vi ) = α · (aij · 1) + β · (aij · V(vj )) j=1 j=1 erhalten wir in Matrixdarstellung V(G) = αA · 1 + βA · V(G) ⇔ (I − βA) · V(G) = αA · 1 ⇔ = α(I − βA)−1 · A · 1 V(G) falls (I − βA)−1 existiert. Dazu folgender Satz 3.13. Seien M ∈ Rn×n , und λ1 , . . . , λn die Eigenwerte von M . Dann gilt: (I − M )−1 existiert ⇔ λi 6= 1 für alle i ∈ {1, . . . , n} Beweis: zu zeigen: (I − M )x 6= 0 für alle x ∈ Rn \{0} ⇔ λi 6= 1 für alle i ∈ {1, . . . , n} 58 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN ⇒: Sei xi Eigenvektor von M zum Eigenwert λi mit (I − M )xi 6= 0 ⇒ 0 6= ⇒ λi 6= (I − M )xi = xi − λi xi = (1 − λi )xi 1. ⇐: Sei λi 6= 1 für alle i, sei xi Eigenvektor zu λi ⇒ (I − M )xi = xi − λi xi = (1 − λ ) x | {z i} i 6= 0. 6=0 Sei x ∈ Rn \{0} kein Eigenvektor von M ⇒ (I − M )x = x − M x 6= 0, da M x 6= x. ■ Mit F := α · (I − βA)−1 · A lautet die Formel zur Bestimmung der Verhandlungszentralität V(G) = F · 1. Wir sehen folgende Analogien zu bereits betrachteten Zentralitäts-Indizes: 3.2 Nachbarzentralitäten 59 1. Wählen wir β = 0, so ist V(vi ) proportional zum Ausgangsgrad dout (vi ), also nur von der Anzahl der zu vi adjazenten Knoten abhängig. V ist dann demnach rein lokal bestimmt. Gilt zudem α = 1, so gilt V(G) = = = = = F ·1 ¡ ¢ α · (I − βA)−1 · A · 1 ¢ ¡ 1 · (I − 0 · A)−1 · A · 1 A·1 ¡ ¢ P GT . V entspricht dann also genau dem Popularitätsindex P (3.1) für die Transponierte AT der Adjazenzmatrix A, d.h. P(G) = V(GT ). 2. Setzen wir α := ϕ und β := ϕ ∈ [0, 1] (3.2.1), so erhalten wir wegen (I − βA)−1 = I + βA + (βA)2 + · · · die Darstellung V(G) = = = = = = = F ·1 ¡ ¢ α · (I − βA)−1 · A · 1 ϕ · (I − ϕA)−1 · A · 1 ϕ · (I + ϕA + (ϕA)2 + · · · ) · A · 1 ¡ ¢ ϕA + (ϕA)2 + (ϕA)3 + · · · · 1 T ·1 ¡ ¢ S GT . Dies entspricht gerade dem Status-Index S (3.2.1) für die Transponierte AT der Adjazenzmatrix A, d.h. S(G) = V(GT ). 60 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 3. Bleiben Pn wir bei beliebigem α bei nichtnegativem β, wählen dazu qk := α · l=1 akl sowie wij := β · aij für k, l ∈ {1, . . . , n} (vgl. 3.2.2), so erhalten wir für i = 1, . . . , n H(vi ) = qi + = α· = n X wij · H(vj ) j=1 n X n X j=1 j=1 n X aij + β · aij · H(vj ) (α + β · H(vj )) · aij . j=1 Dies entspricht der Definition von V. Für β ≥ 0 läßt sich V also durch den in diesem Fall etwas allgemeineren Hubbell-Index H (3.2.2) darstellen. ▲ Daran sehen wir, dass, wie oben bereits erwähnt, die Verhandlungszentralität V nur für eine negative Wahl des Parameters β eine tatsächliche Neuerung darstellt. ✫ Verhandlungszentralität V am Beispielgraphen GB Da die Verhandlungszentralität auch für gerichtete Graphen definiert ist, betrachten wir wieder den in (3.1, S. 25) definierten Graphen GB . Wählen wir α = 1, und für β den negativen Wert −3/4, so erhalten wir wegen 3.2 Nachbarzentralitäten ¶−1 3 = I+ B 4 1 0 0 0 0 1 0 0 0 0 1 0 = 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 224 0 126 98 −168 0 1 = 0 0 98 −216 0 72 0 288 0 61 µ −1 (I − βB) 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 3 + 4 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 −168 126 0 0 0 −168 126 0 0 0 224 −168 0 0 0 0 98 0 0 0 288 −258 224 0 −168 −96 135 −42 98 −42 −384 246 −168 0 224 und VB = α · (I − βB)−1 · B µ ¶−1 3 ·B = 1· I + B 4 −42 0 56 −42 0 56 56 0 −42 2 = 0 0 0 49 72 0 −96 −24 0 32 −96 0 128 −42 0 0 0 −42 0 0 0 56 0 0 0 0 0 0 0 86 −42 0 56 −45 14 0 14 −82 56 0 −42 . 0 0 0 0 1 1 0 −1 62 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Daher ergibt sich für unseren Beispielgraphen GB ein Verhandlungszentralitäts-Vektor von V(GB ) = VB · 1 −42 0 56 −42 0 0 0 1 −42 0 56 −42 0 0 0 1 56 0 −42 1 56 0 0 0 2 = 0 0 0 0 0 0 0 · 1 49 72 0 −96 86 −42 0 56 1 −24 0 32 −45 14 0 14 1 −96 0 128 −82 56 0 −42 1 152 18 72 8 8 20 ,− ,− ) = (− , − , , 0, 7 7 7 49 49 49 ≈ (−1.143, −1.143, 2.857, 0, 3.102, −0.367, −1.469). Auf eine Darstellung des Beispielgraphen GB mit größenveränderten Knoten wie in den anderen Abschnitten, wird hier, aufgrund der negativen Bewertung einzelner Knoten, verzichtet. 3.2.5 PageRank R Sergey Brin und Lawrence Page stellen 1998 den Prototyp der WWW-Suchmaschine Google vor [6]. Mit dieser können die Seiten des WWW nach beliebigen Wörtern durchsucht werden, d.h. es handelt sich um eine textbasierte Suchmaschine. Google hat sich inzwischen etabliert und wird mit altgedienten Suchmaschinen wie Yahoo, Lycos oder Altavista in einem Atemzug genannt. Das liegt nicht zuletzt, neben vielen anderen guten Eigenschaften, an der guten Filterung qualitativ minderwertiger Suchergebnisse. Dies erspart dem Suchenden stundenlanges Durchkämmen von bezüglich einer Anfrage wenig relevanten Dokumenten. Um aus den auf Anfragen oft unzähligen Antwortseiten möglichst qualitativ hochwertige auszuwählen, die 3.2 Nachbarzentralitäten 63 dem Suchenden dann als “erste Wahl“ präsentiert werden, wird hier das Zentralitätsmaß PageRank R benutzt. Dieses bewertet alle Seiten des WWW aufgrund ihrer strukturellen Position in dem durch die Hyperlink-Struktur des WWW gegebenen Graphen G. Die Reihenfolge der Präsentation der Seiten eines Suchergebnisses ergibt sich dann durch die nichtaufsteigende Sortierreihenfolge des PageRank-Vektors R(G). Gegeben sei also eine (endliche) Menge von n WWW-Seiten, zusammen mit den auf ihnen befindlichen Hyperlinks. Wir betrachten dabei nur Hyperlinks, die wieder auf Seiten in der von uns betrachteten Menge verweisen. Für zwei Seiten vi , vj gelte, dass vi höchstens einen Hyperlink auf vj enthält. Wir modellieren dies als gerichteten, ungewichteten Graph G = (V, E), wobei V = {v1 , . . . , vn } die Menge der WWW-Seiten repräsentiert und die Kanten in E die Hyperlinks beschreiben, d.h. (vi , vj ) ∈ E gdw. “Seite vi enthält einen Hyperlink zu Seite vj“. Sei also A die Adjazenzmatrix des gerichteten, ungewichteten Graphen G, d.h. für die Einträge von A gilt ( 1 , falls “vi enthält einen Hyperlink zu vj “ aij = . 0 , sonst Wie bereits in (3.1) erwähnt, erscheint es als erste Näherung sinnvoll, einer WWW-Seite aufgrund einer hohen Anzahl auf sie verweisender Links ein hohes Maß an Popularität zu bescheinigen. Aus verschiedenen Gründen erweist es sich jedoch als nicht ausreichend, ein lokales Maß wie den Eingangsgrad eines Knotens als einziges linkbasiertes Kriterium für die Beurteilung der Qualität einer Seite heranzuziehen. Unter anderem wäre es für jedermann möglich, sich eine große Menge von Seiten zu generieren, und die darauf befindlichen Links zu nutzen, um einer beliebigen Seite zu scheinbar hoher Qualität zu verhelfen. Es ist zu bedenken, dass ein von einer Seite wie yahoo.com ausgehender Link eine höhere Aufmerksamkeit verdient als ein Link auf meiner eigenen Homepage. Die Beurteilung der WWW-Seiten soll vielmehr das Expertenwissen von Millionen von Web-Designern widerspiegeln, und nicht durch einzelne xbeliebige Individuen (in nicht angemessener Weise) beeinflusst werden können. Ein Web-Designer wird im allgemeinen dann einen Hyperlink zu einer Seite vj setzen, wenn er diese für sehenswert und damit auf eine gewisse Art 64 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN für qualitativ hochwertig hält. Diese sogenannten Backlinks (von vj ) werden dann zur Beurteilung der Qualität dieser Seite vj , und damit bei der Vergabe ihres Zentralitätsmaßes R herangezogen. Die PageRanks der Seiten, auf denen sich diese Backlinks befinden, sollen dabei ihrerseits eine wesentliche Rolle spielen. ➤ Gefragt ist demnach ein Zentralitätsmaß, das bei der Indexierung einer Website die gesamte Webstruktur berücksichtigt, d.h. ein global bestimmtes Maß. Betrachten wir einen WWW-Surfer, der auf einer beliebigen Seite startet, und dann unaufhörlich die Website wechselt, wobei er mit Wahrscheinlichkeit q ∈ [0, 1] zufällig einen der Links auf der Seite anklickt, auf der er sich gerade befindet, und mit Wahrscheinlichkeit p = 1 − q zufällig eine völlig neue WWW-Seite aufruft. Eine solche Person (bzw. sein Vorgehen) bezeichnet man als Random Surfer (Irrfahrer). Gehen wir davon aus, dass jeder der auf der gerade aktuellen Seite zur Verfügung stehenden Links mit gleicher Wahrscheinlichkeit ausgewählt wird, und dass auch, bei zufälliger Auswahl einer völlig neuen Seite, die Wahrscheinlichkeit gleichverteilt ist, so ergibt sich für einen auf der Seite vj befindlichen Random Surfer die Wahrscheinlichkeit (probability) P (j, i) = p q · aji + , n dout (vj ) von vj nach vi zu wechseln. Dabei sind p q n dout (vj ) aji = = = = = Wahrscheinlichkeit, ganz neue Seite aufzurufen Wahrscheinlichkeit, einem der Links zu folgen = 1 − p Anzahl Seiten insgesamt Anzahl ausgehender Links auf Seite vj Anzahl Links auf vj , die auf die Seite vi zeigen (∈ {0, 1}) ▲ Dabei wird dout (vj ) 6= 0 angenommen, um das Auftreten von 00 zu verhindern. Befinden sich auf Seite vj keine Hyperlinks, so definieren wir (q · aji )/dout (vj ) := 0. 3.2 Nachbarzentralitäten 65 Um unser Zentralitätsmaß definieren zu können, benötigen wir noch einen Parameter λ, der uns die Existenz einer von Null verschiedenen Lösung garantiert. Der PageRank einer Seite vi bestimmt sich nun im wesentlichen als Summe der PageRanks aller Seiten vj , jeweils gewichtet mit der Wahrscheinlichkeit, von vj nach vi zu wechseln, d.h. n X λR(vi ) = (P (j, i) · R(vj )) j=1 = n µµ X p j=1 so dass λ maximal und kR(G)k1 := q · aji + n dout (vj ) Pn k=1 ¶ ¶ · R(vj ) , R(vk ) = 1. Um das Auftreten von 00 zu verhindern, definieren wir die “pseudoinverse Zeilensummenmatrix“ Dr−1 von A durch 1 , falls i = j und dout (vi ) 6= 0 −1 . (Dr )ij = dout (vi ) 0 , sonst Somit ergibt sich in Matrixdarstellung wegen kR(G)k1 = 1 also λR(G) = ³p n = (X + A0 )T · R(G), wo X := ´T · 1 · 1T + q · Dr−1 · A · R(G) p · 1 · 1T , A0 := q · Dr−1 · A. n R(G) ist also Eigenvektor zum größten Eigenwert von (X + A0 )T . 66 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN ✫ PageRank R am Beispielgraphen GB Da die im WWW auftretenden Hyperlinks meist nicht bidirektional sind, betrachten wir als Beispiel wieder den Graphen GB (siehe Definition unter 3.1, S. 25). Bewerten wir zudem die Wahrscheinlichkeit, eine ganz neue Seite aufzurufen mit 14%, d.h. wählen wir p = 0.14, so erhalten wir XB = = p · 1 · 1T n 1 1 1 0.14 1 7 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 und B 0 = q · Dr−1 · B 1 0 0 1 0 0 = 0.86 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 2 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 1 3 0 0 0 0 0 0 0 1 3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 3.2 Nachbarzentralitäten 67 0.86 = 6 0 0 3 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 2 2 0 0 3 0 3 0 2 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 0 0 3 2 0 . Das führt zu (XB + B 0 )T 1 = 300 6 6 135 6 6 6 6 6 6 6 6 6 6 6 264 264 6 6 6 92 92 6 6 135 6 135 6 92 6 6 6 6 6 92 92 6 6 6 6 6 6 6 6 6 6 6 135 92 6 Die Bestimmung des größten Eigenwertes von (XB + B 0 )T ergibt λmax ≈ 0.76508. Der zugehörige, in der Summe seiner Komponenten auf 1 normierte Eigenvektor bestimmt sich approximativ zu R(GB ) ≈ (0.211, 0.026, 0.330, 0.273, 0.063, 0.026, 0.071). Abb. 3.15 zeigt eine Einbettung des Beispielgraphen GB , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 68 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 2 4 3 7 1 5 6 Abbildung 3.15: PageRank am Beispielgraph GB 3.2.6 Authorities KA und Hubs KH Ebenfalls 1998 betrachtet Jon M. Kleinberg [18] einen anderen Ansatz zur Beurteilung der Qualität von WWW-Seiten. Dabei werden zwei verschiedene Zentralitätsmaße in Graphen aufgezeigt, welche unterschiedliche Qualitätsansprüche beschreiben sollen. 1. Zum einen betrachten wir solche Seiten als qualitativ hochwertig, welche tatsächlich gute Informationen über das uns (als Informationssuchenden) interessierende Thema enthalten, sogenannte Authorities. 2. Zum anderen werden solche Seiten hoch eingestuft, die ihrerseits viele Hyperlinks auf Authorities haben, sogenannte Hubs (Hilfsseiten). Dazu betrachten wir einen Subgraphen des WWW, der aus Antwortseiten einer Suche mit einer textbasierten Suchmaschine (wie Altavista) so generiert wird, dass die daran beteiligten WWW-Seiten mehr oder weniger direkt mit dem uns interessierenden Suchbegriff zu tun haben. Gegeben sei also eine (endliche) Menge von n WWW-Seiten, zusammen mit den auf ihnen befindlichen Hyperlinks. Wir betrachten dabei nur die Hyperlinks, die wieder auf Seiten in der von uns betrachteten Menge verweisen. Wir modellieren dies als gerichteten Graph G = (V, E), wobei V = {v1 , . . . , vn } 3.2 Nachbarzentralitäten die Menge der WWW-Seiten repräsentiert und die Kanten in E die Hyperlinks beschreiben, d.h. (vi , vj ) ∈ E gdw. “Seite vi enthält einen Hyperlink zu Seite vj“, d.h. G ist der von V knoteninduzierte Teilgraph des WWW. Sei also A die Adjazenzmatrix des gerichteten, ungewichteten Graphen G, d.h. für die Einträge von A gilt ( 1 , falls “vi enthält einen Hyperlink zu vj“ . aij = 0 , sonst Die Beurteilung der Seiten geschieht nun wie folgt: • auf gute Authorities sollte von vielen guten Hubs verwiesen werden • gute Hubs ihrerseits sollten möglichst viele Links auf gute Authorities enthalten Dazu verwenden wir einen iterativen Algorithmus, der die Authority- und Hub-Werte verwaltet und updated. Sei x = (x<p> )p∈V ein Vektor, dessen Koordinaten die (vorläufigen) Authority-Werte enthalten, ebenso enthalte ein Vektor y = (y<p> )p∈V die (vorläufigen) Hub-Werte. Wir werden immer dafür sorgen, dass P die Quadratsummen über die Maße normiert P jeweiligen 2 2 2 2 sind, d.h. kxk2 := p∈V (x<p> ) = 1, kyk2 := p∈V (y<p> ) = 1. Seiten mit höheren Werten sollten dabei als “besser“ angesehen werden. Numerisch betrachtet ergibt sich die gegenseitig verstärkende Beziehung zwischen Hubs und Authorities wie folgt: • Falls auf p von vielen Seiten mit hohem y-Wert gezeigt wird, so sollte es einen hohen x-Wert erhalten. • Falls p auf viele Seiten mit hohen x-Werten zeigt, so sollte es einen hohen y-Wert erhalten. Dazu definieren wir zwei Operationen I und O auf den Vektoren x und y. Seien für p ∈ V die Werte x<p> und y<p> gegeben. 69 70 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN • Die I-Operation erneuert die x-Werte wie folgt: x<p> ← X y<p> q:(q,p)∈E • Die O-Operation erneuert die y-Werte wie folgt: y<p> ← X x<p> q:(p,q)∈E Um nun die erwünschten Gleichgewichtswerte zu erhalten, werden die Iund O-Operationen abwechselnd angewendet und geschaut, ob Konvergenz erfolgt. Jetzt können wir unseren Algorithmus Iterate formulieren. Iterate(G, k) G: der betrachtete Graph G = (V, E) mit |V | = n k: Anzahl durchzuführender Iterationen Sei x0 := 1, y0 := 1 Für i = 1, . . . , k Wende die I-Operation auf (xi−1 , yi−1 ) an, erhalte neuen Vektor x0i Wende die O-Operation auf(x0i , yi−1 ) an, erhalte neuen Vektor yi0 x0 Normalisiere x0i , erhalte xi (xi := ||xii||2 ) Normalisiere yi0 , erhalte yi (yi := End Return (xk , yk ) yi0 ) ||yi ||2 3.2 Nachbarzentralitäten Schließlich haben wir den folgenden Algorithmus zur Ermittlung der c besten Authorities und der c besten Hubs: Filter(G, k, c) G: der betrachtete Graph G = (V, E) k: Anzahl durchzuführender Iterationen c: Anzahl auszugebender Top-Ergebnisse (x, y) = Iterate(G, k) Sortiere x und y nichtaufsteigend Gib die Seiten mit den c größten x-Koordinaten als Top-Authorities aus Gib die Seiten mit den c größten y-Koordinaten als Top-Hubs aus Um darzulegen, dass der Algorithmus Iterate zu sinnvollen Ergebnissen führt, zeigen wir jetzt, dass (xk ) und (yk ) gegen Grenzwerte x∗ und y∗ konvergieren. Dazu benötigen wir einige Eigenschaften aus der linearen Algebra. Sei M eine symmetrische (n × n)-Matrix mit reellen Einträgen. Ein Eigenwert von M ist eine Zahl λ ∈ R, so dass für einen Vektor w ∈ Rn \{0} gilt: M w = λw. Der Vektor w heißt Eigenvektor von M zum Eigenwert λ. Da M symmetrisch ist, gibt es eine Orthonormalbasis von Rn bestehend aus Eigenvektoren von M . Seien λ1 , . . . , λn die zu diesen Eigenvektoren w1 , . . . , wn gehörenden Eigenwerte. Wir nehmen an, dass |λ1 | > |λi |, i = 2, . . . , n für alle in diesem Abschnitt betrachteten symmetrischen Matrizen gilt. Einen zu λ1 gehörenden Eigenvektor w1 bezeichnen wir dann als Haupteigenvektor. Lemma 3.14. Sei A ∈ Rn×n , λ 6= 0. Dann gilt: 1. AAT und AT A sind symmetrisch 2. λ Eigenwert von AAT ⇔ λ Eigenwert von AT A 3. w Eigenvektor von AAT zum Eigenwert λ ⇒ AT w Eigenvektor von AT A zum Eigenwert λ 71 72 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Beweis: 1. (AAT )T = (AT )T (A)T = AAT (AT A)T = (A)T (AT )T = AT A 2. Sei w Eigenvektor von AAT zum Eigenwert λ ⇒ AAT w = λw ⇒ AT A(AT w) = AT (AAT w) = AT λw = λAT w ⇒ λ Eigenwert von AT A Sei w Eigenvektor von AT A zum Eigenwert λ ⇒ AT Aw = λw ⇒ AAT (Aw) = A(AT Aw) = Aλw = λAw ⇒ λ Eigenwert von AAT 3. Siehe 2. ■ Jetzt können wir beweisen, dass die Prozedur Iterate für k → ∞ konvergiert. Satz 3.15. Die Folgen (xi ) bzw. (yi ) konvergieren gegen x∗ := w1 (AT A) bzw. y∗ := w1 (AAT ), die Haupteigenvektoren von AT A bzw. AAT . Beweis: Sei also G = (V, E), A die zugehörige Adjazenzmatrix. Offensichtlich können die I- und O-Operationen geschrieben werden als x ← AT y bzw. y ← Ax. Daher ist xk der Einheitsvektor in Richtung von (AT A)k−1 AT 1, und yk ist der Einheitsvektor in Richtung von (AAT )k 1 (vollständige Induktion). Wegen (AT A)k−1 AT 1 = AT (AAT )k−1 1 ist also xk auch der Einheitsvektor in Richtung AT yk−1 . 3.2 Nachbarzentralitäten 73 Aus der linearen Algebra ist bekannt, dass, falls M eine symmetrische reelle (n × n)-Matrix ist, und w ein nicht zum Haupteigenvektor orthogonaler Vektor, der Einheitsvektor in Richtung M k w gegen den Haupteigenvektor w1 (M ) von M für k → ∞ konvergiert. Ebenso gilt, dass, falls M nur nichtnegative Einträge hat, es einen Haupteigenvektor mit ausschließlich nichtnegativen Einträgen gibt [2]. Da AT A und AAT symmetrisch sind und nur nichtnegative Einträge haben, gilt also: Der Vektor 1 ist nicht orthogonal zum Haupteigenvektor w1 (AAT ), und daher konvergiert die Folge (yk ) gegen y∗ = w1 (AAT ). Daher konvergiert (xk ) gegen den Einheitsvektor in Richtung AT y∗ . Dies ist der Haupteigenvektor x∗ = w1 (AT A) von AT A (Lemma 3.14). ■ Die Konvergenz von (xi ) bzw. (yi ) ergibt sich also auf die gleiche Art und Weise wie die Konvergenz von (Sm ) in (3.2.3). Lediglich die Vorgehensweise bei der iterativen Normierung ist unterschiedlich (Satz 3.11). Wir definieren KA (G) := x∗ und KH (G) := y∗ . Die Bestimmung der Indexvektoren erfolgt also über die Eigenwertgleichungen λKA (G) = (AT A)KA (G) und λKH (G) = (AAT )KH (G). 74 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN ✫ Authorities KA und Hubs KH am Beispielgraphen GB Da die im WWW auftretenden Hyperlinks meist nicht bidirektional sind, betrachten wir als Beispiel wieder den Graphen GB (siehe Definition unter 3.1, S. 25). Authorities KA Zur Bestimmung der Authorities KA des Beispielgraphen GB berechnen wir zunächst BT B = = 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 1 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 4 1 2 0 1 1 0 1 3 1 0 1 0 0 2 1 2 0 1 0 0 0 0 0 0 0 0 0 1 1 1 0 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 . Die Bestimmung des größten Eigenwertes von B T B führt zu λmax ≈ 6.55943. Ein zugehöriger Eigenvektor bestimmt sich approximativ zu 0 0 0 0 0 0 0 0 0 0 0 1 1 0 3.2 Nachbarzentralitäten 75 w1 (B T B) ≈ (0.079, 0, 0.676, 0.442, 0.470, 0, 0.348) und normiert auf 1 ergibt sich KA (GB ) ≈ (0.039, 0, 0.335, 0.219, 0.233, 0, 0.173). Abb. 3.16 zeigt eine Einbettung des Beispielgraphen GB , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.16: Authorities am Beispielgraph GB Hubs KH Zur Bestimmung der Hubs KH des Beispielgraphen GB berechnen wir zunächst BB T = 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 1 1 0 0 76 KAPITEL 3. 1 1 0 = 0 0 1 1 ZENTRALITÄTEN IN GRAPHEN 1 0 0 0 1 1 1 0 0 0 1 1 0 2 0 1 0 1 0 0 0 0 0 0 . 0 1 0 2 1 1 1 0 0 1 3 2 1 1 0 1 2 3 Die Bestimmung des größten Eigenwertes von BB T führt zu λmax ≈ 6.55943. Ein zugehöriger Eigenvektor bestimmt sich approximativ zu w1 (BB T ) ≈ (0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620) und normiert auf 1 ergibt sich KH (GB ) ≈ (0.118, 0.118, 0.091, 0, 0.137, 0.260, 0.276). Abb. 3.17 zeigt eine Einbettung des Beispielgraphen GB , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.17: Hubs am Beispielgraph GB 3.2 Nachbarzentralitäten 3.2.7 Resümee Unter Einbeziehung des Popularitätsindex P (3.1) haben wir in den vorhergehenden Abschnitten acht verschiedene Nachbarzentralitätsmaße vorgestellt. Zunächst betrachten wir dabei Situationen aus der realen Welt, welche wir durch Graphen modellieren. Mit Ausnahme der Standardzentralität B (3.2.3) sind sämtliche Maße für gerichtete Graphen geeignet. Einzig der HubbellIndex H (3.2.2) erlaubt eine Kantengewichtung. Bei der Bewertung der Knoten eines Graphen folgen wir dann jeweils intuitiv nachvollziehbaren Beurteilungskriterien, wobei das einem Knoten zugewiesene Zentralitätsmaß jeweils von seinen Nachbarn und/oder deren Bewertungen abhängt (z.B. in (3.1) Popularitätsindex P(vi ) = Anzahl der Freunde von vi ). Diese Kriterien lassen sich nun mit Hilfe der den Graphen beschreibenden Adjazenzmatrix relativ leicht in mathematische Form bringen (z.B. P(vi ) = Anzahl der Freunde Pn der Person vi = i-te Spaltensumme der Adjazenzmatrix A, also P(vi ) = j=1 aji ). Auf diese Art erhalten wir schließlich die im folgenden nochmals aufgeführten Formeln zur Bestimmung der einzelnen Zentralitätsmaße. Dabei seien wie bisher A bzw. W die ungewichtete bzw. gewichtete Adjazenzmatrix des Graphen G = (V, E), I die Einheitsmatrix, 1 sei der mit Einsen gefüllte Spaltenvektor (1, . . . , 1) entsprechender Größe. Dabei wird zum wiederholten Male deutlich, dass sich diese Formeln zur Bestimmung der Zentralitätsmaße stark ähneln und sich nur im Detail unterscheiden. Insbesondere sind dabei einige der Zentralitätsmaße als Spezialfälle anderer darstellbar. Dies ermöglicht es uns, die Anzahl der vorliegenden Formeln zu reduzieren. 77 78 (3.1) KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Popularitätsindex P (3.2.1) Status-Index S P(G) = AT · 1 S(G) = T T · 1 T = ϕA + (ϕA)2 + · · · ϕ ∈ [0, 1] konstant (3.2.2) Hubbell-Index H H(G) = (I − W )−1 · q q = Vektor der äußeren Einflüsse (3.2.3) Standardzentralität B λB(G) = A · B(G) λ = größter Eigenwert von A (3.2.4) Verhandlungszentralität V V(G) = F · 1 F = α(I − βA)−1 A α = Normierungskonstante β = Globalisierungskonstante (3.2.5) PageRank R λR(G) = (B + A0 ) · R(G) λ = größter Eigenwert von (B + A0 ) B = np 1 · 1T A0 = qDr−1 A Dr−1 = pseudoinverse Zeilensummenmatrix von A Wahrscheinlichkeiten p + q = 1 (3.2.6) Authorities KA λKA (G) = (AT A) · KA (G) (3.2.6) Hubs KH λKH (G) = (AAT ) · KH (G) 3.2 Nachbarzentralitäten 79 So kann der Popularitätsindex P (3.1) als Spezialfall der Verhandlungszentralität V dargestellt werden, indem wir die Normierungskonstante α und die Globalisierungskonstante β passend definieren (siehe 3.2.4). Setzen wir nämlich α := 1, β := 0, so erhalten wir ¡ ¢ P(G) = V{1,0} GT . Auch läßt sich der Status-Index S (3.2.1) mit Hilfe der Verhandlungszentralität V darstellen (siehe 3.2.4). Setzen wir α := ϕ und β := ϕ ∈ [0, 1], so erhalten wir ¡ ¢ S(G) = V{ϕ,ϕ} GT . Wegen V(G) = ¡ ¢ α(I − βA)−1 · A · 1 sind Popularitätsindex, Status-Index und Verhandlungszentralität also darstellbar durch ein Gleichungsystem der Form Z = g(A) · 1 wobei g(A) ∈ Rn×n von der Adjazenzmatrix A abhängt. ▲ Der Hubbell-Index H stellt unter den vorgestellten Maßen einen Sonderfall dar, denn zum einen wird hier eine beliebige (nichtnegative, reelle) Kantengewichtung zugelassen, zum anderen wird der Zentralitätsvektor ganz wesentlich durch äußere Einflüsse geprägt. Diese können unter Umständen so groß sein, dass sich die wirkliche Struktur des Graphen nicht in dem Ergebnis der Berechnungen widerspiegelt. Daher wollen wir diese Formel trotz ihrer sehr allgemeinen Formulierung hier nicht weiter betrachten. 80 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Die Formeln zur Bestimmung der Standardzentralität B, des PageRank R, der Hubs KH sowie der Authorities KA sind allesamt vom gleichen Typ. Es handelt sich dabei um Eigenwertgleichungen der Form λZ = f (A) · Z wobei f (A) ∈ R n×n durch die Adjazenzmatrix A bestimmt wird. ☞ Zentralitätsmaße dieser Art bezeichnet man daher auch als Eigenvektorzentralitäten. Die vorgestellten Zentralitätsindizes bestimmen sich also (mit Ausnahme des Hubbell-Index) • entweder durch die Lösung eines von der Matrix g(A) abhängenden Gleichungssystems, d.h. durch Z = g(A) · 1 • oder durch die Bestimmung eines Eigenvektors zum größten Eigenwert einer Matrix f (A), also durch das Lösen von λZ = f (A) · Z. 3.3 Entfernungszentralitäten Im folgenden sollen nun, wie bereits in Kapitel 3 (S. 18) angekündigt, zum zweiten allgemeinen Ansatz gehörende Zentralitätsmaße vorgestellt werden, welche die Knoten eines Netzwerkes in Abhängigkeit von ihren Entfernungen zu den anderen Knoten des Netzwerkes bewerten. Das Zentrum eines Sterns wird hierbei teilweise eine Sonderstellung einnehmen, daher wird es jeweils genauer untersucht werden. Wir betrachten in dieser Reihenfolge die Stresszentralität, die Zwischenzentralität, die Entfernungszentralität und die Graphenzentralität. 3.3 Entfernungszentralitäten 3.3.1 81 Stresszentralität ST Ein Konzept zur Bestimmung eines Zentralitätsmaßes für Knoten betrachtet die Eigenschaft eines Knotens vi , zwischen Paaren anderer Knoten zu liegen. Es basiert auf der Anzahl der kürzesten Wege zwischen solchen Knotenpaaren, auf denen vi liegt. In einem sozialen Netzwerk, bestehend aus Personen und ihrer Kommunikation untereinander, beeinflusst eine solche Person vi einen oder mehrere der kürzesten Kommunikationswege anderer Personenpaare. Dieser Einfluss einer Person auf die Kommunikation anderer soll hier bestimmt werden. 1 3 4 5 2 Abbildung 3.18: Graph Gstress Im Graph Gstress (Abb. 3.18) liegen die Knoten v1 , v2 und v5 nicht auf kürzesten Wegen anderer Knotenpaare. Der Knoten v3 hingegen liegt auf je einem kürzesten Weg der Paare {v1 , v2 }, {v1 , v4 }, {v1 , v5 }, {v2 , v4 } und {v2 , v5 }, wogegen v4 auf den kürzesten Wegen von {v1 , v5 }, {v2 , v5 } und {v3 , v5 } zu finden ist. Für die Bestimmung der Stresszentralität ST (Shimbel, 1953) eines Knotens vi wird einfach die Anzahl sämtlicher kürzester Wege von Knotenpaaren {vj , vk }, j, k 6= i bestimmt, auf denen vi liegt. ST (vi ) ergibt sich also durch Aufsummieren der durch vi führenden kürzesten Wege aller Knotenpaare, d.h. ist gjk (vi ) die Anzahl zu den Knoten vj und vk gehörender kürzester Wege, auf denen vi liegt, so gilt ST (vi ) = X gjk (vi ). vj 6=vi 6=vk ∈V Ein einfacher Algorithmus zur Bestimmung von ST ist nachfolgend aufgeführt. 82 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Stress(G, k) G: der betrachtete Graph G = (V, E) mit |V | = n Bestimme alle kürzesten Wege in G Für i = 1, . . . , n Führe für jedes Knotenpaar {vj , vk } durch Zähle die kürzesten Wege zwischen vj und vk , auf denen vi liegt, erhalte gjk (vi ) End Setze ST (vi ) = P vj 6=vi 6=vk ∈V gjk (vi ) End Gib ST (G) = (ST (v1 ), . . . , ST (vn )) aus ▲ Das Zentrum eines Sterns liegt zwar auf sämtlichen kürzesten Wegen anderer Knotenpaare, diesem wird aber nicht der maximal mögliche Zentralitätswert in einem Graph mit n Knoten zuerkannt. Dies verdeutlichen wir nachfolgend an einem Beispiel. 6 1 5 7 2 4 3 Abbildung 3.19: Stern S7 mit 7 Knoten 3.3 Entfernungszentralitäten 83 Zunächst betrachten wir einen Stern mit 7 Knoten (Abb. 3.19). Der Knoten v7 liegt auf allen kürzesten Wegen anderer Knotenpaare {vi , vj }, i, j ∈ {1, . . . , 6} von S7 . Die Anzahl ungeordneter Knotenpaare aus einer Menge von 6 Knoten = 15, und daher erreichen wir für v7 einen Wert von bestimmt sich zu 6∗(6−1) 2 X ST (v7 ) = gjk (vi ) = 15. vj 6=v7 6=vk ∈V 1 7 2 4 6 3 5 Abbildung 3.20: Graph Gnostar mit 7 Knoten Nun betrachten wir den Beispielgraphen Gnostar (Abb. 3.20) mit 7 Knoten und zählen die durch den Knoten v4 führenden kürzesten Wege der Paare der restlichen Knoten {v1 , v2 , v3 , v5 , v6 , v7 }. Alle durch v4 führenden kürzesten Wege von Gnostar sind nachfolgend abgebildet (Abb. 3.21). 1: 2: 1 3: 7 2 1 4 6 1 7 2 4 4 5: 6: 4: 1 1 7 4 2 6 7 1 4 6 5 2 4 5 84 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 7: 8: 9: 7 1 1 4 4 10: 12: 7 7 7 4 4 4 3 3 13: 6 3 15: 2 5 4 3 4 5 17: 16: 3 5 18: 1 4 3 6 5 6 3 14: 4 6 3 11: 2 4 5 5 2 2 6 7 4 4 3 5 Abbildung 3.21: kürzeste Wege durch v4 von Gnostar Wir sehen also, dass im Graph Gnostar 18 kürzeste Wege durch den Knoten v4 führen. Es wird also eine höhere Stresszentralität erreicht als beim Stern S7 , d.h. der Stern erfüllt keine Extremalbedingung. Gnostar ist der kleinste bekannte Graph, der diese Eigenschaft hat. 3.3 Entfernungszentralitäten 85 ✫ Stresszentralität SZ am Beispielgraphen GB̃ Für unseren Beispielgraphen GB̃ ergibt sich hier durch Bestimmung aller in ihm vorkommenden kürzesten Wege der Länge ≥ 2 der StresszentralitätsVektor ST (GB̃ ) = (0, 0, 14, 3, 1, 3, 4). Abb. 3.22 zeigt eine Einbettung des Beispielgraphen GB̃ , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.22: Stresszentralität am Beispielgraph GB̃ 3.3.2 Zwischenzentralität ZW Ein zur Stresszentralität (3.3.1) sehr ähnliches Konzept zur Bestimmung eines Zentralitätsmaßes für Knoten betrachtet wiederum die Eigenschaft eines Knotens vi , auf kürzesten Wegen von Paaren anderer Knoten zu liegen. Die Zwischenzentralität ZW (Anthonisse, 1971) entspricht dabei genau der Stresszentralität, wenn wie bei dem Stern je zwei Knoten nur durch jeweils einen kürzesten Weg verbunden sind. 86 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 2 1 3 4 5 Abbildung 3.23: Stern S5 mit 5 Knoten Betrachten wir den Stern S5 mit 5 Knoten (Abb. 3.23), so sehen wir, dass das Zentrum v3 auf allen kürzesten Wegen anderer Knotenpaare liegt. Alle kürzesten Wege durch v3 von S5 sind nachfolgend abgebildet (Abb. 3.24). 1: 3: 2 1 3 2: 1 1 3 3 4 5 5: 2 4: 6: 2 3 4 3 3 5 5 Abbildung 3.24: kürzeste Wege durch v3 von Stern S5 4 3.3 Entfernungszentralitäten 87 Ist ein Knotenpaar durch mehrere kürzeste Wege verbunden, so wird die Situation komplizierter. Liegt ein Knoten vi nämlich dann nur auf einigen, nicht aber auf allen dieser kürzesten Wege, so wird dies nur anteilig in seinen Zentralitätswert eingerechnet. Man könnte sagen, er hat bezüglich dieses Paares nur eingeschränkte Kontrolle. In einem sozialen Netzwerk würde das bedeuten, dass nur einige der kürzesten Kommunikationswege zweier Personen über eine dritte Person vi laufen, nicht aber alle. Daher hat vi auf diese Kommunikation auch nur teilweise Einfluss. 1 2 4 3 Abbildung 3.25: Graph Ggeo Bei dem Graph Ggeo (Abb. 3.25) verbinden zwei kürzeste Wege die Knoten v1 und v3 , wobei der eine über v2 läuft und der andere über v4 . Daher haben v2 und v4 jeweils nur eingeschränkte Kontrolle bzgl. des Knotenpaares {v1 , v3 }. Diese teilweise Kontrolle wird in das Maß der Zwischenzentralität anteilig eingerechnet. Beschreibt gjk die Anzahl aller kürzesten Wege eines Knotenpaares {vj , vk }, und gjk (vi ) die Anzahl solcher kürzester Wege, auf denen vi liegt, so bestimmen wir den Einfluss von vi auf {vj , vk } als gjk (vi ) . gjk Dies entspricht der Wahrscheinlichkeit, dass vi auf einem zufällig ausgewählten kürzesten Weg von vj und vk liegt. bjk (vi ) = 88 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Um die Zwischenzentralität eines Knotens vi zu bestimmen, werden diese Einflüsse von vi auf alle anderen Knotenpaare {vj , vk }, j, k 6= i, aufsummiert, d.h. ZW(vi ) := X bjk (vi ). vj 6=vi 6=vk ∈V Ein einfacher Algorithmus zur Bestimmung von ZW ist nachfolgend aufgeführt. Zwischen(G, k) G: der betrachtete Graph G = (V, E) mit |V | = n Bestimme alle kürzesten Wege in G Für i = 1, . . . , n Führe für jedes Knotenpaar {vj , vk } durch Zähle die kürzesten Wege zwischen vj und vk , auf denen vi liegt, erhalte gjk (vi ) Zähle alle kürzesten Wege zwischen vj und vk , erhalte gjk Setze bjk (vi ) = gjk (vi ) gjk End Setze ZW(vi ) := P vj 6=vi 6=vk ∈V bjk (vi ) End Gib ZW(G) = (ZW(v1 ), . . . , ZW(vn )) aus Freeman [10] zeigte, dass der maximale Wert, den ZW in einem Netzwerk mit n Knoten annehmen kann, nur vom Zentrum eines Sterns erreicht wird, nämlich (n−1)(n−2) . 2 3.3 Entfernungszentralitäten 89 ✫ Zwischenzentralität ZW am Beispielgraphen GB̃ Für unseren Beispielgraphen GB̃ ergibt sich hier durch Bestimmung aller in ihm vorkommenden kürzesten Wege der Zwischenzentralitäts-Vektor µ ¶ 1 1 1 ZW(GB̃ ) = 0, 0, 9 , 1, , 1, 1 3 3 3 ≈ (0, 0, 9.333, 1, 0.333, 1, 1.333). Abb. 3.26 zeigt eine Einbettung des Beispielgraphen GB̃ , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.26: Zwischenzentralität am Beispielgraph GB̃ 90 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN 3.3.3 Abstandszentralität AB Die in (3.3.1) und (3.3.2) vorgestellten Zentralitätsmaße können theoretisch für alle ungerichteten Graphen bestimmt werden, ob sie zusammenhängend sind oder nicht. Wie wir im folgenden sehen werden, ist die Bestimmung der Abstandszentralität (und auch der im nachfolgenden Abschnitt behandelten Graphenzentralität) nur für zusammenhängende Graphen sinnvoll. Wie der Name schon sagt, wird bei der Abstandszentralität AB (Sabidussi, 1966) der gesamte Abstand eines Knotens vi zu den anderen Knoten bestimmt und daraus unser gewünschtes Maß berechnet. Der Abstand oder die Entfernung zweier Knoten ist dabei die Länge eines kürzesten Weges zwischen diesem Knotenpaar. Der Gesamtabstand von vi zu den anderen Knoten ist dann die Summe der Einzelabstände. Betrachten wir wieder den Stern mit 5 Knoten (Abb. 3.23, S. 86), so sehen wir, dass das Zentrum v3 zu jedem anderen Knoten den Abstand 1 hat. Der Gesamtabstand, den wir als Summe der Einzelentfernungen bestimmen, beträgt für v3 daher 4. Jeder der anderen Knoten hat von v3 den Abstand 1 und von den restlichen Knoten den Abstand 2. Für diese beträgt die Summe der Einzelentfernungen daher jeweils 7. Wie erwartet erfüllt der zentrale Knoten eines Sterns wiederum eine Extremalbedingung, denn durch seine direkte Verbindung zu allen anderen Knoten hat er zu diesen den in einem Graphen mit n Knoten minimal möglichen Gesamtabstand, nämlich n − 1. In einem sozialen Netzwerk würde das bedeuten, dass eine Person v3 in einer solch zentralen Position optimale Kontakte zu den anderen Gruppenmitgliedern unterhält. Daher wollen wir den Knoten, die zu den anderen Knoten einen geringen Gesamtabstand haben, ein hohes Maß an Abstandszentralität zuweisen, wogegen Knoten, die weit von den anderen Knoten entfernt sind, auf eine gewisse Art und Weise peripher sind, und daher nur einen kleinen Zentralitätswert erhalten. 3.3 Entfernungszentralitäten 91 Bezeichnen wir die Länge eines kürzesten Weges eines Knotenpaares {vi , vk } mit dist(vi , vk ), so definieren wir das Maß der Abstandszentralität durch AB(vk ) = P n 1 . dist(vi , vk ) i=1 Diese Definition ist nur in einem zusammenhängenden Graph sinnvoll, denn in einem nichtzusammenhängenden Graph ist jeder Knoten vi von mindestens einem anderen Knoten vk aus nicht erreichbar, d.h. deren Abstand beträgt dist(vi , vk ) = ∞. Daher wäre AB(vi ) = 0 für alle i ∈ {1, . . . , n}, unabhängig von der sonstigen Struktur des Graphen. Ein einfacher Algorithmus zur Bestimmung von AB ist nachfolgend aufgeführt. Abstand(G, k) G: der betrachtete Graph G = (V, E) mit |V | = n Bestimme alle kürzesten Wege in G Für i = 1, . . . , n Für j = 1, . . . , n Bestimme die Länge eines kürzesten Weges von vi nach vj , erhalte dist(vi , vj ) End Setze AB(vi ) = n P j=1 1 dist(vi ,vj ) End Gib AB(G) = (AB(v1 ), . . . , AB(vn )) aus 92 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN ✫ Abstandszentralität AB am Beispielgraphen GB̃ Für unseren Beispielgraphen GB̃ ergibt sich hier also durch Bestimmung der Abstände aller Knotenpaare der Abstandszentralitäts-Vektor µ ¶ 1 1 1 1 1 1 1 AB(GB̃ ) = , , , , , , 12 12 7 9 11 9 8 ≈ (0.083, 0.083, 0.143, 0.111, 0.091, 0.111, 0.125). Abb. 3.27 zeigt eine Einbettung des Beispielgraphen GB̃ , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.27: Abstandszentralität am Beispielgraph GB̃ 3.3 Entfernungszentralitäten 3.3.4 93 Graphenzentralität GR Die in (3.3.1) und (3.3.2) vorgestellten Zentralitätsmaße können für alle ungerichteten Graphen bestimmt werden, ob sie zusammenhängend sind oder nicht. Wie wir im folgenden sehen werden, ist die Bestimmung der Graphenzentralität (sowie der im vorigen Abschnitt behandelten Abstandszentralität) nur für zusammenhängende Graphen sinnvoll. Für die Bestimmung der Graphenzentralität GR (Hage and Harary, 1995) eines Knotens vi wird die maximale Entfernung, bzw. der maximale Abstand von vi zu allen anderen Knoten im Graphen bestimmt und daraus unser gewünschtes Maß berechnet. Die Entfernung von vi zu einem Knoten vk ist dabei die Länge eines kürzesten Weges zwischen dem Knotenpaar (vi , vk ). Betrachten wir wieder den Stern mit 5 Knoten (Abb. 3.23, S. 86), so sehen wir, dass das Zentrum v3 zu jedem anderen Knoten die Entfernung 1 hat. Die maximale Entfernung von v3 zu den restlichen Knoten des Graphen beträgt für v3 daher 1. Jeder der anderen Knoten hat von v3 die Entfernung 1 und von den restlichen Knoten die Entfernung 2. Für diese beträgt das Maximum daher jeweils 2. Wie erwartet erfüllt der zentrale Knoten eines Sterns wiederum eine Extremalbedingung, denn durch seine direkte Verbindung zu allen anderen Knoten hat er zu diesen die in einem Graphen minimal mögliche Maximalentfernung, nämlich 1. In einem sozialen Netzwerk würde das bedeuten, dass eine Person v3 in einer solch zentralen Position optimale Kontakte zu allen anderen Gruppenmitgliedern unterhält. Daher wollen wir den Knoten, die zu den anderen Knoten des Graphen eine geringe Maximalentfernung haben, ein hohes Maß an Graphenzentralität zuweisen, wogegen Knoten, die weit von irgendeinem der anderen Knoten entfernt sind, nur einen kleinen Zentralitätswert erhalten. Bezeichnen wir die Länge eines kürzesten Weges eines Knotenpaares {vi , vk } mit dist(vi , vk ), so definieren wir das Maß der Graphenzentralität durch GR(vk ) = 1 . max dist(vi , vk ) k∈{1,...,n} 94 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Diese Definition ist nur in einem zusammenhängenden Graph sinnvoll, denn in einem nichtzusammenhängenden Graph ist jeder Knoten vi von mindestens einem anderen Knoten vk aus nicht erreichbar, d.h. deren Entfernung beträgt dist(vi , vk ) = ∞. Daher wäre GR(vi ) = 0 für alle i ∈ {1, . . . , n}, unabhängig von der sonstigen Struktur des Graphen. Ein einfacher Algorithmus zur Bestimmung von GR ist nachfolgend aufgeführt. Graphen(G, k) G: der betrachtete Graph G = (V, E) mit |V | = n Bestimme alle kürzesten Wege in G Für i = 1, . . . , n Für j = 1, . . . , n Bestimme die Länge eines kürzesten Weges von vi nach vj , erhalte dist(vi , vj ) End Setze GR(vk ) = max k∈{1,...,n} 1 dist(vi ,vk ) End Gib GR(G) = (GR(v1 ), . . . , GR(vn )) aus ✫ Graphenzentralität GR am Beispielgraphen GB̃ Für unseren Beispielgraphen GB̃ ergibt sich hier also durch Bestimmung der Maximallängen der kürzesten Abstände jedes Knotens zu den anderen Knoten der Graphenzentralitäts-Vektor µ ¶ 1 1 1 1 1 1 1 GR(GB̃ ) = , , , , , , 3 3 2 2 3 2 2 ≈ (0.333, 0.333, 0.5, 0.5, 0.333, 0.5, 0.5). 3.3 Entfernungszentralitäten 95 Abb. 3.28 zeigt eine Einbettung des Beispielgraphen GB̃ , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 2 4 3 7 1 5 6 Abbildung 3.28: Graphenzentralität am Beispielgraph GB̃ 3.3.5 Resümee Unter Einbeziehung des Popularitätsindex P (3.1) haben wir in den vorhergehenden Abschnitten fünf verschiedene Entfernungszentralitätsmaße vorgestellt. Dabei gehen wir jeweils aus von einem sozialen Netzwerk, welches wir durch einen Graphen modellieren. Mit Ausnahme des Popularitätsindex P (3.1) sind sämtliche Maße nur auf ungerichteten Graphen definiert. Nur ungewichtete Graphen sind zugelassen. Bei der Bewertung der Knoten eines Graphen folgen wir intuitiv nachvollziehbaren Beurteilungskriterien, wobei das einem Knoten zugewiesene Maß jeweils von seiner Entfernung zu den anderen Knoten abhängt (z.B. in (3.3.4) Graphenzentralität GR(vi ) = [Maximalabstand von vi zu den anderen Knoten]−1 ) Die vorgestellten Maße sind im folgenden nochmals aufgeführt. Alle Entfernungszentralitäten eines Graphen G können bestimmt werden, indem man zunächst die Menge der in G vorkommenden kürzesten Pfade ermittelt, und diese anschließend nach unterschiedlichen Kriterien auswertet. 96 KAPITEL 3. ZENTRALITÄTEN IN GRAPHEN Bei der Suche nach der maximal möglichen Zentralität erreicht das Zentrum eines Sterns vZ (z.B. Abb. 3.23, S. 86) eine herausragende Stellung. Die in einem Graphen gleicher Größe maximal erreichbare Zwischenzentralität ZW (3.3.2) wird nur von vZ angenommen. Popularitätsindex P (3.1), Abstandszentralität AB (3.3.3) und Graphenzentralität GR (3.3.4) nehmen den maximal möglichen Wert genau auf allen Knoten maximalen Grades an, insbesondere also auch auf vZ . Die maximale Stresszentralität SZ (3.3.1) wird nicht von vZ angenommen. Popularitätsindex P der einem Knoten zugewiesene Wert entspricht der Anzahl der Knoten der Entfernung 1 (3.3.1) Stresszentralität ST der einem Knoten zugewiesene Wert entspricht der Anzahl der von ihm geschnittenen kürzesten Wege anderer Knotenpaare (3.3.2) Zwischenzentralität ZW ein Knoten wird in Abhängigkeit seiner Lage auf den kürzesten Wegen anderer Knotenpaare beurteilt (3.3.3) Abstandszentralität AB die Summe der Abstände eines Knotens zu den anderen Knoten ist invers zu seinem Bewertungsmaß (3.3.4) Graphenzentralität GR der Wert eines Knotens entspricht dem Inversen des maximalen Abstandes zu einem anderen Knoten des Graphen (3.1) Kapitel 4 Normierung Die in Kapitel 3 vorgestellten Zentralitätsmaße dienen der Beurteilung von Objekten in Netzwerken aus der realen Welt. Dazu werden diese Netzwerke durch Graphen modelliert, deren Knoten, welche diese Objekte repräsentieren, dann eine Beurteilung in Form von sogenannten Zentralitätswerten erhalten. Ein solcher Wert eines Knotens vi besitzt nun relativ zu den Werten der anderen Knoten eine Aussagekraft über die Zentralität von vi in der Netzwerkstruktur, welcher Art diese Zentralität auch immer sein mag. So können beispielsweise die Werte des Popularitätsindexes P (3.1) eines Abstimmungsnetzwerkes nichtaufsteigend sortiert werden. Es entsteht eine Liste, an deren Anfang die Personen mit den meisten erhaltenen Stimmen stehen, und an deren Ende die mit den wenigsten. So kann die Popularität der einzelnen Personen relativ zu den anderen bestimmt werden. Die Einzelwerte jedoch geben wenig Aufschluß über die wahre Popularität. So würde die Bewertung einer Person vi von P(vi ) = 3 in einem Netzwerk von 4 Personen von hoher (hier sogar maximaler) Popularität zeugen, in einem Netzwerk von 1000000 Personen dagegen eher nicht. Die einzelnen Werte eines Zentralitätsmaßes sind dabei noch weniger aussagekräftig, wenn zu ihrer Bestimmung kompliziertere Verfahren (als beispielsweise die Bestimmung des Eingangsgrades eines Knotens) verwendet werden. ➤ Wir suchen daher zu einem Zentralitätsvektor Z einen normierten Zentralitätsvektor Z 0 , der die relativen Verhältnisse der ursprünglichen Werte untereinander respektiert und dessen Einzelwerte bereits gute Aussagen über die Zentralität der einzelnen Objekte ermöglichen. 98 KAPITEL 4. NORMIERUNG 4.1 Ansätze am Popularitätsindex P Betrachten wir zunächst den Popularitätsindex P (3.1). Wie wir gesehen haben, entspricht der einem Knoten vi zugewiesene Wert P(vi ) dem Eingangsgrad dieses Knotens, also din (vi ). Dieser Wert ist für manche Belange durchaus aussagekräftig, gibt er doch beispielsweise in einem sozialen Netzwerk die Anzahl der Freunde oder Wähler der mit dem Knoten vi identifizierten Person an. Bei der hier vorliegenden Untersuchung interessieren wir uns jedoch auch für die relative Stellung einer Person in der Gruppe, d.h. für deren Beliebtheit bzw. Popularität im Vergleich zu den anderen Gruppenmitgliedern. Aussagen darüber lassen sich allerdings aus einem einzelnen Popularitätswert nicht ableiten. Dazu sind Kenntnisse über die Größe (= Anzahl der Objekte/Knoten) eines Netzwerkes und/oder über die Bewertung der anderen Objekte/Knoten erforderlich. Um dies an einem Beispiel zu verdeutlichen, betrachten wir einen ungerichteten, ungewichteten Graphen G = (V, E), V = {v1 , . . . , vn }, n > 10. Der Popularitätswert des Knotens v1 sei mit P(v1 ) = 10 angegeben, d.h. 10 andere Knoten sind zu v1 adjazent. • Ist die Größe des Graphen n = |V | = 11, so erreicht v1 eine hohe, hier sogar maximale Popularität, denn alle anderen Knoten sind dann zu v1 adjazent. • Wählen wir dagegen n = |V | = 106 , so ist die Popularität von v1 recht gering, zumindest relativ zu der Größe des Netzwerkes. • Gilt jedoch, bei beliebigem n (> 10), dass P(v1 ) > P(vj ) für sehr viele j ∈ {2, . . . , n}, so werden wir v1 eine relativ hohe Popularität innerhalb der Gruppe bestätigen. • Andererseits bescheinigt die Eigenschaft P(v1 ) < P(vj ) für sehr viele j ∈ {2, . . . , n} dem Knoten v1 nur eine relativ zu den anderen Knoten geringe Popularität. Dies bestätigt unsere Aussage, dass ein einzelner Popularitätswert P(vi ) nur ungenügend dazu geeignet ist, die Popularität von vi innerhalb einer Gruppe zu beurteilen. Daher möchten wir den Popularitäts-Vektor P(G) eines Graphen G = (V, E) so in einen Vektor Px (G) transformieren, dass die 4.1 Ansätze am Popularitätsindex P Vorzeichen und Verhältnisse der Werte untereinander erhalten bleiben, d.h. P(v ) P (v ) P (vi ) 6= 0 vorausgesetzt, dass bei gleichen Vorzeichen P(vji ) = PXx (vij) für i, j ∈ {1, . . . , n} gilt, und dass jeder Wert P(vi ) bereits Informationen über die Popularität von vi relativ zur Gruppe enthält. Im folgenden sei G = (V, E) ein einfacher, gerichteter, ungewichteter Graph ohne Schleifen mit V = {v1 , . . . , vn }. G enthalte mindestens n = 2 Knoten und eine Kante. 4.1.1 äußere Relativ-Popularität P1 Das äußere Maximum Pmax (n), d.h. der maximal erreichbare Popularitätswert Pmax in einem Graphen mit n Knoten entspricht dem maximal möglichen Eingangsgrad, d.h. Pmax (n) = = max max P(v) G=(V,E) v∈V |V |=n max max din (v) G=(V,E) v∈V |V |=n = n − 1. Da G mindestens n = 2 Knoten enthält, gilt Pmax (n) > 0. Wir definieren die äußere Relativ-Popularität P1 durch P(G) Pmax (n) P(G) = n−1 µ ¶ P(v1 ) P(vn ) = ,..., n−1 n−1 = (P1 (v1 ), . . . , P1 (vn )) . P1 (G) := Ein Wert P1 (vi ) beschreibt also nun, wie groß die Popularität von vi relativ zur maximal erreichbaren Popularität ist. P1 (vi ) bewegt sich im Intervall 99 100 KAPITEL 4. NORMIERUNG [0, 1], wobei Werte nahe 1 auf eine relativ zur Netzwerkgröße hohe Popularität schließen lassen, im Gegensatz zu Werten, die sich nahe bei Null bewegen. Der Wert 1 wird von allen Knoten mit maximalem Eingangsgrad n − 1 erreicht, Null wird von den Knoten angenommen, deren Eingangsgrad gleich 0 ist. In ungerichteten zusammenhängenden Graphen ist dies nicht möglich. ✫ äußere Relativ-Popularität P1 am Beispielgraphen GB Für unseren Beispielgraphen GB ergab sich bei der Berechnung des Popularitätsindex P (3.1) der Vektor P(GB ) = (1, 0, 4, 3, 2, 0, 2). Damit ergibt sich für GB und einer damit verbundenen Knotenzahl von n = 7 eine äußere Relativ-Popularität von P(GB ) Pmax (n) P(GB ) = 7−1 (1, 0, 4, 3, 2, 0, 2) = 6 µ ¶ 1 2 1 1 1 = , 0, , , , 0, . 6 3 2 3 3 P1 (GB ) := 4.1.2 innere Relativ-Popularität P2 Das innere Maximum maxP(G), d.h. der bei der Bestimmung des Popularitätsindex P(G) maximal erreichte Wert ist maxP(G) := max P(vi ). i∈{1,...,n} Da G mindestens eine Kante enthält, gilt maxP > 0. Wir definieren die innere Relativ-Popularität P2 durch 4.1 Ansätze am Popularitätsindex P 101 P(G) maxP(G) µ ¶ P(v1 ) P(vn ) = ,..., maxP(G) maxP(G) = (P2 (v1 ), . . . , P2 (vn )) . P2 (G) := Ein Wert P2 (vi ) beschreibt also, wie groß die Popularität von vi relativ zu der maximal erreichten Popularität ist. P2 (vi ) bewegt sich im Intervall [0, 1], wobei es mindestens einen Knoten vj gibt, von dem der Wert 1 angenommen wird, für den also P2 (vj ) = 1 gilt. Auch hier wird der Wert Null von den Knoten angenommen, deren Eingangsgrad gleich 0 ist. In ungerichteten zusammenhängenden Graphen ist dies nicht möglich. ✫ innere Relativ-Popularität P2 am Beispielgraphen GB Für unseren Beispielgraphen GB ergab sich bei der Berechnung des Popularitätsindex P (3.1) der Vektor P(GB ) = (1, 0, 4, 3, 2, 0, 2). Der hierbei maximal erreichte Popularitätswert ist demnach maxP(GB ) = 4. Damit ergibt sich für GB eine innere Relativ-Popularität von P(GB ) maxP(GB ) P(GB ) = 4 (1, 0, 4, 3, 2, 0, 2) = 4 µ ¶ 1 3 1 1 = , 0, 1, , , 0, . 4 4 2 2 P2 (GB ) := 102 4.1.3 KAPITEL 4. NORMIERUNG prozentuale Relativ-Popularität P3 Die bei der Bestimmung des Popularitätsindex P(G) erhaltenen Werte werden zur Gesamtpopularität sumP(G) aufsummiert, d.h. sumP(G) := n X P(vi ). i=1 Da G mindestens eine Kante enthält, gilt sumP > 0. Wir definieren die prozentuale Relativ-Popularität P3 durch P(G) sumP(G) µ ¶ P(v1 ) P(vn ) = ,..., sumP(G) sumP(G) = (P3 (v1 ), . . . , P3 (vn )) . P3 (G) := Ein Wert P3 (vi ) beschreibt also den prozentualen Anteil, den vi an der gesamten Popularität des Graphen hat. Auch P3 (vi ) bewegt sich im Intervall [0, 1] und es gilt hier n X P3 (vi ) = 1. i=1 Der Wert 1 wird nur von Knoten angenommen, welche die gesamte Zentralität eines Graphen in sich vereinen. Dies ist nur möglich, wenn alle anderen Knoten den Eingangsgrad 0 haben. Die Werte Null und 1 werden in ungerichteten Graphen (n > 1) nicht erreicht. ✫ prozentuale Relativ-Popularität P3 am Beispielgraphen GB Für unseren Beispielgraphen GB ergab sich bei der Berechnung des Popularitätsindex P (3.1) der Vektor P(GB ) = (1, 0, 4, 3, 2, 0, 2). 4.2 Verallgemeinerung 103 Der hierbei erreichte Gesamtpopularität ist demnach sumP(GB ) = n X P(vi ) i=1 = 1+0+4+3+2+0+2 = 12. Damit ergibt sich für GB eine prozentuale Relativ-Popularität von P(GB ) sumP(GB ) P(GB ) = 12 (1, 0, 4, 3, 2, 0, 2) = 12 µ ¶ 1 1 1 1 1 = , 0, , , , 0, . 12 3 4 6 6 P3 (GB ) := 4.2 Verallgemeinerung Im folgenden wollen wir versuchen, die oben betrachteten Normierungsansätze, dargestellt am Beispiel des Popularitätsindex, auf die übrigen, in der vorliegenden Arbeit aufgeführten Zentralitätsmaße auszudehnen. 4.2.1 äußere Relativ-Zentralität Z1 Ganz allgemein müssen wir nun also zu einem Zentralitätsindex Z das äußere Maximum Zmax (n), also den maximal erreichbaren Zentralitätswert Zmax in einem Graphen mit n Knoten bestimmen. Dann können wir die äußere Relativ-Zentralität Z1 definieren durch Z(G) Zmax (n) = (Z1 (v1 ), . . . , Z1 (vn )) . Z1 (G) := 104 KAPITEL 4. NORMIERUNG Die Bestimmung des äußere Maximums Zmax (n) erweist sich in manchen Fällen als äußerst schwierig, wie es bereits an dem noch recht einfach zu handhabenden Status-Index S (3.2.1) deutlich wird. Dieser ergibt sich durch S(G) = (S(v1 ), . . . , S(vn )) ! à n n X X tj1 , . . . , tjn = j=1 j=1 = T · 1, T wo T := ϕA + ϕ2 A2 + · · · + ϕk Ak + · · · ∞ X = ϕ l Al . l=1 Zunächst soll also der maximal erreichbare Statuswert Smax (n) eines Graphen mit n Knoten bestimmt werden. Dabei ist zu beachten, dass der Bereich (das Intervall), aus dem die Abschwächungskonstante ϕ gewählt werden kann, direkt von dem aktuell betrachteten Graphen G = (V, E) abhängt. Es muss nämlich 1/ϕ größer als der größte EigenwertP der zu G gehörenden Adjazenzl l matrix A sein, um die Konvergenz von T = ∞ l=1 ϕ A zu gewährleisten. Ein fest gewähltes, für G = (V, E) zulässiges ϕ, könnte also durchaus für einige Graphen G0 = (V 0 , E 0 ) mit |V 0 | = |V | außerhalb des zulässigen Bereiches liegen. Dies soll an diesem einfachen Beispiel verdeutlicht werden: Betrachten wir die folgenden einfachen Graphen: 1 1 2 2 Beispielgraph G1 mit zugehörigen Adjazenzmatrizen und Beispielgraph G2 4.2 Verallgemeinerung à A1 = 0 1 0 0 105 ! à und A2 = 0 1 1 0 ! . ! ! à 0 0 0 0 Für A1 gilt dann (A1 )2 = und somit (A1 )k = für belie0 0 0 0 biges k ≥ 2. Die Matrix T1 bestimmt sich also zu à T1 := ∞ X ϕl (A1 )l l=1 1 = ϕ(A1 ) + ∞ X ϕl (A1 )l l=2 = ϕA1 , d.h. T1 existiert für jedes beliebig gewählte ϕ(∈ [0, 1]). à Für A2 gilt (A2 )2 = 1 0 0 1 Exponenten und (A2 )2k+1 ! à 1 0 0 1 ! und somit (A2 )2k = für geradzahlige à ! 0 1 = für ungeradzahlige Exponenten. 1 0 Wählen wir insbesondere das für A1 zulässige ϕ = 1, so sehen wir, dass T2 := ∞ X ϕl (A2 )l ! ! à X 0 1 1 0 )+ ) = ϕl ( ϕl ( 1 0 0 1 l ungerade l gerade à ! à ! ∞ ∞ X X 0 1 1 0 = ( )+ ( ) 1 0 0 1 k=1 k=1 à ! ∞ X 1 1 = ( ) 1 1 k=1 l=1 X à 106 KAPITEL 4. NORMIERUNG nicht konvergiert, dass ϕ = 1 für G2 also nicht zulässig ist. Es sei darauf hingewiesen, dass der Fall ϕ = 1 keinen Sonderfall darstellt, sondern dass es zu jedem ϕ 6= 0 einen Graphen gibt, für den dieses ϕ nicht zulässig ist. Folgende Fragen stellen sich nun: Wie soll mit diesen, zu einem gewissen Abschwächungsfaktor ϕ nicht passenden Graphen verfahren werden? Sollen sie bei der Bestimmung des maximal erreichbaren Statuswertes vernachlässigt werden? Oder soll ein maximales ϕn so bestimmt werden, dass es für alle Graphen mit n Knoten einen zulässigen Abschwächungsfaktor darstellt? Beide Vorschläge wären sicherlich keine wünschenswerten Lösungen des Problems. Da sich der Status-Index S als Spezialfall des Hubbell-Index H und auch der Verhandlungszentralität V darstellen lässt, werden sich auch für H und V keine zufriedenstellenden Normierungen bezüglich des äußeren Maximums ergeben. Die Standardzentralität B hingegen lässt sich bzgl. des äußeren Maximums normieren. Darauf werden wir in Abschnitt 4.3.3 eingehen. Die Normierung des PageRank R ist problematisch, da die bei dessen Bestimmung eingehenden Wahrscheinlichkeiten p und q den maximal erreichbaren Wert verschieben. 6 1 5 7 2 4 3 Abbildung 4.1: nach innen gerichteter Stern mit 7 Knoten 4.2 Verallgemeinerung 107 • Bewegt sich der Wert von p, also die Wahrscheinlichkeit, dass eine ganz neue Seite aufgerufen wird, gegen Null, so erreicht das Zentrum eines nach innen gerichteten Sterns (Abb. 4.1) in einem euklidisch normierten Vektor den Wert 1. • Tendiert p jedoch gegen 1, so verliert die Linkstruktur des WWW ihren Einfluss auf die Bewertung der einzelnen Seiten. In einem euklidisch q normierten Vektor werden dann alle Komponenten den Wert nehmen. 1 n an- Eine genauere Untersuchung der Normierung des PageRank bzgl. des äußeren Maximums werden wir nicht vornehmen. Die Maße Authorities KA und Hubs KH lassen sich wiederum bzgl. des äußeren Maximums normieren. Dies wird im Abschnitt 4.3.6 behandelt. Jedes der Maße Zwischenzentralität ZW, Abstandszentralität AB und Graphenzentralität GR hat seine eigene allgemeine Formel zur Bestimmung des maximal erreichbaren Zentralitätswertes in irgendeinem (ungerichteten) Graphen mit n Knoten. Jede dieser Formeln ergibt sich aus den für diese Maße zugrundeliegenden Extremaleigenschaften des Sterns und wird jeweils im entsprechenden Abschnitt vorgestellt. Die Bestimmung des äußeren Maximums der Stresszentralität ST lässt sich nicht vom Stern ableiten, da dieser bezüglich dieses Maßes keine in diesem Sinne extremale Stellung einnimmt. Eine allgemeine Funktion zur Bestimmung des äußeren Maximums der Stresszentralität ist nicht bekannt. 4.2.2 innere Relativ-Zentralität Z2 Wir sehen sofort, dass dieser Ansatz auf alle betrachteten Zentralitätsmaße verallgemeinert werden kann. Dazu berechnen wir einen Zentralitäts-Vektor Z(G) gemäß den in Kapitel 3 vorgestellten Möglichkeiten. Wir gehen davon aus, dass es sich hierbei nicht um den Nullvektor handelt. Anschließend bestimmen wir den Maximalwert seiner Komponenten, das innere Maximum maxZ(G), durch maxZ(G) := max Z(vi ). i∈{1,...,n} 108 KAPITEL 4. NORMIERUNG ▲ Ausnahme Verhandlungszentralität V (3.2.4): Ein Index-Vektor V(G) der Verhandlungszentralität V (3.2.4) kann negative Werte enthalten. Um eine sinnvolle Normierung zu erhalten, wird dessen inneres Maximum über die Beträge seiner Komponenten bestimmt, d.h. maxV(G) := max |V(vi )| . i∈{1,...,n} Wir definieren die innere Relativ-Zentralität Z2 durch Z(G) maxZ(G) ¶ µ Z(vn ) Z(v1 ) ,..., = maxZ(G) maxZ(G) = (Z2 (v1 ), . . . , Z2 (vn )) . Z2 (G) := Insbesondere bei den Eigenvektorzentralitäten ist es dabei unerheblich, welche Länge der ursprünglich gewählte Eigenvektor Z(G) hat. Betrachten wir eine Konstante µ > 0, so ist mit Z(G) auch Z̃(G) := µ·Z(G) ein Eigenvektor und es gilt maxZ̃(G) := = max Z̃(vi ) i∈{1,...,n} max µ · Z(vi ) i∈{1,...,n} = µ · max Z(vi ) i∈{1,...,n} = µ · maxZ(G) und daher Z̃(G) maxZ̃(G) µ · Z(G) = µ · maxZ(G) = Z2 (G). Z̃2 (G) := 4.2 Verallgemeinerung 109 Bei den anderen (Nicht-Eigenvektor-)Zentralitätsmaßen sind bereits die ursprünglichen Zentralitäts-Vektoren eindeutig bestimmt, und daher sind auch die normierten Vektoren eindeutig. 4.2.3 prozentuale Relativ-Zentralität Z3 Wie bei dem inneren Maximum ist auch bei diesem Ansatz sofort erkennbar, dass er leicht auf alle betrachteten Zentralitätsmaße (Ausnahme: Verhandlungszentralität V, s.u.) verallgemeinert werden kann. Wieder berechnen wir einen der in Kapitel 3 vorgestellten Zentralitäts-Vektoren, Z(G). Wir gehen davon aus, dass es sich hierbei nicht um den Nullvektor handelt. Anschließend bestimmen wir die Gesamtzentralität sumZ(G), die Summe seiner Komponenten, d.h. sumZ(G) := n X Z(vi ). i=1 Die prozentuale Relativ-Zentralität Z3 wird dann definiert durch Z(G) sumZ(G) µ ¶ Z(v1 ) Z(vn ) = ,..., sumZ(G) sumZ(G) = (Z3 (v1 ), . . . , Z3 (vn )) . Z3 (G) := Auch hier ist es bei der Betrachtung der Eigenvektorzentralitäten unerheblich, welche Länge der ursprünglich gewählte Eigenvektor Z(G) hat. Betrachten wir wieder eine Konstante µ > 0, so ist mit Z(G) auch Z̃(G) := µ · Z(G) ein Eigenvektor und es gilt 110 KAPITEL 4. NORMIERUNG sumZ̃(G) := = n X i=1 n X Z̃(vi ) µ · Z(vi ) i=1 = µ∗ n X Z(vi ) i=1 = µ · sumZ(G). Daher gilt Z̃(G) sumZ̃(G) µ · Z(G) = µ · sumZ(G) = Z3 (G). Z̃3 (G) := Bei den anderen (Nicht-Eigenvektor-)Zentralitätsmaßen sind bereits die ursprünglichen Zentralitäts-Vektoren eindeutig bestimmt, und daher sind auch die normierten Vektoren eindeutig. ▲ Ausnahme Verhandlungszentralität V (3.2.4): Die Bestimmung der prozentualen Relativ-Verhandlungszentralität nach der vorgestellten Methode ist nicht sinnvoll, da mögliche auftretende negative Komponenten in V(G) einen negativen prozentualen Anteil an der Gesamtzentralität zur Folge hätten. Dies ist sicherlich nicht wünschenswert. Auch ein ähnliches Vorgehen wie bei der Bestimmung der inneren Relativ-Verhandlungszentralität, nämlich das Aufsummieren der Beträge der Komponenten des Vektors V(G), löst dieses Problem nicht. Eine lineare Verschiebung der Komponenten in den nichtnegativen Bereich hingegen würde die Aussagekraft des ursprünglichen Verhandlungsmaßes zu sehr verzerren, weswegen wir hierauf verzichten. Um nicht ganz mit leeren Händen dazustehen, können wir den Vektor V(G) aufteilen, und zwar zum einen in seine negativen (Verlust-)Komponenten, 4.2 Verallgemeinerung 111 zum anderen in seine nichtnegativen (Gewinn-)Komponenten. Zu jedem dieser Teile können wir dann zunächst die prozentualen Relativ-Verhandlungszentralitäten V− (G) und V+ (G) bestimmen. V− (vi ) beschreibt dann den prozentualen Anteil, den vi am Gesamtverlust (=Verlust aller Verlierer) hat, und V+ (vj ) eben den prozentualen Anteil, den vj am Gesamtgewinn (=Gewinn aller Gewinner) hat. Dazu definieren wir V− (G) = (V− (v1 ), . . . , V− (vn )) durch ( V(vi ) , falls V(vi ) < 0 V− (vi ) = 0 , sonst und V+ (G) = (V+ (v1 ), . . . , V+ (vn )) durch ( V(vi ) , falls V(vi ) > 0 . V+ (vi ) = 0 , sonst Damit gilt V(G) = V− (G) + V+ (G). Weiterhin definieren wir den Gesamtverlust sumV− (G) durch sumV− (G) = n X V− (vi ) i=1 sowie den Gesamtgewinn sumV+ (G) durch sumV+ (G) = n X V+ (vi ). i=1 Die prozentuale Relativ-Verlustzentralität V3− bestimmt sich dann durch V− (G) sumV− (G) µ ¶ V− (v1 ) V− (vn ) = ,..., sumV− (G) sumV− (G) ¢ ¡ = V3− (v1 ), . . . , V3− (vn ) . V3− (G) = 112 KAPITEL 4. NORMIERUNG Entsprechend erhalten wir die prozentuale Relativ-Gewinnzentralität V3+ durch V+ (G) sumV+ (G) µ ¶ V+ (v1 ) V+ (vn ) = ,..., sumV+ (G) sumV+ (G) ¢ ¡ = V3+ (v1 ), . . . , V3+ (vn ) . V3+ (G) = Die prozentuale Relativ-Verhandlungszentralität V3 definieren wir dann durch V3 (G) = V3+ (G) − V3− (G). 4.3 Normierung der Nachbarzentralitäten In den folgenden Abschnitten werden die verschiedenen Normierungen für die Nachbarschaftszentralitäten bestimmt. Dabei betrachten wir für den StatusIndex S, den Hubbell-Index H, die Verhandlungszentralität, den PageRank R und die Kleinberg-Zentralitäten Hubs KH und Authorities KA den in (3.1, S. 25) definierten gerichteten Graphen GB . Bei den Standardzentralität B werden die Ergebnisse des in (3.2.3, S. 52) definierten ungerichteten Graphen GB̃ normiert. ▲ Im folgenden werden die Zentralitäts-Vektoren als Zeilenvektoren betrachtet! Die Dezimalzahlen in diesem Abschnitt sind auf drei Stellen gerundet. äußere Relativ-Zentralität Wenn möglich, bestimmen wir hier zu einem Zentralitäts-Index Z(G) also zunächst sein äußeres Maximum, Zmax (n) = max max Z(v) G=(V,E) v∈V |V |=n 4.3 Normierung der Nachbarzentralitäten 113 und kommen so zur äußeren Relativ-Zentralität Z(G) . Zmax (n) Z1 (G) = innere Relativ-Zentralität Hier bestimmen wir zu einem Zentralitäts-Index Z(G) also zunächst sein inneres Maximum, maxZ(G) = max Z(vi ) i∈{1,...,n} und kommen so zur inneren Relativ-Zentralität Z2 (G) = Z(G) . maxZ(G) prozentuale Relativ-Zentralität In diesem Fall bestimmen wir zu einem Zentralitäts-Index Z(G) zunächst seine Gesamtzentralität, sumZ(G) = n X Z(vi ) i=1 und kommen so zur prozentualen Relativ-Zentralität Z3 (G) = 4.3.1 Z(G) . sumZ(G) Status-Index S Der Status-Index des Graphen GB wurde in (3.2.1) bestimmt, er beträgt µ S(GB ) = ¶ 8 13 17 , 0, , , 2, 0, 2 . 3 3 3 114 KAPITEL 4. NORMIERUNG innerer Relativ-Status-Index Das innere Maximum von S(GB ) berechnet sich zu max S(vi ) µ ¶ 8 13 17 = max , 0, , , 2, 0, 2 3 3 3 17 = . 3 maxS(GB ) = i∈{1,...,n} Damit ergibt sich für den inneren Relativ-Status-Index der Vektor S2 (GB ) = = S(GB ) maxS(GB ) ¢ ¡8 13 17 , 0, , , 2, 0, 2 3 3 3 17 3 µ ¶ 8 13 6 6 = , 0, , 1, , 0, 17 17 17 17 = (0.471, 0, 0.765, 1, 0.353, 0, 0.353). prozentualer Relativ-Status-Index Die Gesamtzentralität von S(GB ) berechnet sich zu sumS(GB ) = n X S(vi ) X µ8 ¶ 13 17 = , 0, , , 2, 0, 2 3 3 3 13 17 8 +0+ + +2+0+2 = 3 3 3 50 = . 3 i=1 Damit ergibt sich für den prozentualen Relativ-Status-Index der Vektor 4.3 Normierung der Nachbarzentralitäten S3 (GB ) = = S(GB ) sumS(GB ) ¢ ¡8 , 0, 13 , 17 , 2, 0, 2 3 3 3 50 3 µ ¶ 8 13 17 6 6 = , 0, , , , 0, 50 50 50 50 50 = (0.16, 0, 0.26, 0.34, 0.12, 0, 0.12). 4.3.2 Hubbell-Index H Der Hubbell-Index des Graphen GB wurde in (3.2.2) bestimmt, er beträgt µ H(GB ) = ¶ 11 16 20 , 1, , , 3, 1, 3 . 3 3 3 innerer Relativ-Hubbell-Index Das innere Maximum von H(GB ) berechnet sich zu max H(vi ) µ ¶ 11 16 20 = max , 1, , , 3, 1, 3 3 3 3 20 . = 3 Damit ergibt sich für den inneren Relativ-Hubbell-Index der Vektor maxH(GB ) = H2 (GB ) = = i∈{1,...,n} H(GB ) maxH(GB ) ¢ ¡ 11 16 20 , 1, , , 3, 1, 3 3 3 3 µ 20 3 ¶ 11 3 16 6 3 6 = , , , 1, , , 20 20 20 20 20 20 = (0.55, 0.15, 0.8, 1, 0.3, 0.15, 0.3). 115 116 KAPITEL 4. NORMIERUNG prozentualer Relativ-Hubbell-Index Die Gesamtzentralität von H(GB ) berechnet sich zu sumH(GB ) = n X H(vi ) X µ 11 ¶ 16 20 = , 1, , , 3, 1, 3 3 3 3 16 20 11 +1+ + +3+1+3 = 3 3 3 71 = . 3 i=1 Damit ergibt sich für den prozentualen Relativ-Hubbell-Index der Vektor H3 (GB ) = = H(GB ) sumH(GB ) ¢ ¡ 11 , 1, 16 , 20 , 3, 1, 3 3 3 3 µ 71 3 ¶ 11 3 16 20 9 3 9 = , , , , , , 71 71 71 71 71 71 71 = (0.155, 0.042, 0.225, 0.282, 0.127, 0.042, 0.127). 4.3.3 Standardzentralität B Die Standardzentralität des Graphen GB̃ wurde in (3.2.3) bestimmt, sie beträgt B(GB̃ ) = (0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500). äußere Relativ-Standardzentralität Wir wollen das äußere Maximum der Standardzentralität B bestimmen. Dazu betrachten wir einen ungerichteten, einfachen Graphen G mit Adjazenzmatrix A. Die Standardzentralität B bestimmt sich als Eigenvektor v̄ zum größten Eigenwert λ̄ der Gleichung 4.3 Normierung der Nachbarzentralitäten 117 Av = λv. v̄ wird dabei jeweils so gewählt, dass er ausschließlich nichtnegative Einträge hat. Um die zu verschiedenen Graphen gehörenden Vektoren sinnvoll vergleichen zu können, werden wir diese zunächst euklidisch, d.h. bzgl. || ||2 normieren. [21] zeigt, dass der maximal mögliche Eintrag in einem solchen Vektor durch √1 nach oben beschränkt ist. Außerdem wird der Wert √1 genau vom Zen2 2 trum eines Sterns angenommen [20], d.h. 1 Bmax (n) = √ . 2 Daher definieren wir B1 (G) := = = B(G) Bmax (n) B(G) √1 2 √ 2 · B(G) die äußere Relativ-Standardzentralität von G. Das äußere Maximum ist von der Größe des betrachteten Graphen unabhängig, auch für unseren ungerichteten Beispielgraphen GB̃ mit 7 Knoten berechnet es sich demnach zu 1 Bmax (7) = √ . 2 Da der uns vorliegende Standardzentralitäts-Vektor bereits euklidisch normiert ist, ergibt sich für die äußere Relativ-Standardzentralität der Vektor B(GB̃ ) Bmax (7) (0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500) = 0.707 = (0.199, 0.199, 0.672, 0.576, 0.552, 0.576, 0.707). B1 (GB̃ ) = 118 KAPITEL 4. NORMIERUNG innere Relativ-Standardzentralität Das innere Maximum von B(GB̃ ) berechnet sich zu maxB(GB̃ ) = max B(vi ) i∈{1,...,n} = max(0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500) = 0.500. Damit ergibt sich für die innere Relativ-Standardzentralität der Vektor B(GB̃ ) maxB(GB̃ ) (0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500) = 0.500 = (0.282, 0.282, 0.950, 0.814, 0.782, 0.814, 1). B2 (GB̃ ) = prozentuale Relativ-Standardzentralität Die Gesamtzentralität von B(GB̃ ) berechnet sich zu sumB(GB̃ ) = n X B(vi ) i=1 X = (0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500) = 0.141 + 0.141 + 0.475 + 0.407 + 0.391 + 0.407 + 0.500 = 2.462. Damit ergibt sich für die prozentuale Relativ-Standardzentralität der Vektor B(GB̃ ) sumB(GB̃ ) (0.141, 0.141, 0.475, 0.407, 0.391, 0.407, 0.500) = 2.462 = (0.057, 0.057, 0.193, 0.165, 0.159, 0.165, 0.203). B3 (GB̃ ) = 4.3 Normierung der Nachbarzentralitäten 4.3.4 119 Verhandlungszentralität V Die Verhandlungszentralität des Graphen GB wurde in (3.2.4) bestimmt, sie beträgt V(GB ) = (−1.143, −1.143, 2.857, 0, 3.102, −0.367, −1.469). innere Relativ-Verhandlungszentralität Das innere Maximum von V(GB ) berechnet sich in diesem Fall durch das Maximum der Beträge der Komponenten (4.2.2) zu maxV(GB ) = max |V(vi )| i∈{1,...,n} = max (| − 1.143|, | − 1.143|, |2.857|, |0|, |3.102|, | − 0.367|, | − 1.469|) = 3.102. Damit ergibt sich für die innere Relativ-Verhandlungszentralität der Vektor V(GB ) maxV(GB ) (−1.143, −1.143, 2.857, 0, 3.102, −0.367, −1.469) = 3.102 = (−0.368, −0.368, 0.921, 0, 1, −0.118, −0.474). V2 (GB ) = prozentuale Relativ-Verhandlungszentralität Wie in (4.2.3) bereits angekündigt, werden wir den VerhandlungszentralitätsVektor V(GB ) zunächst in einen Verlust-Vektor V− (GB ) und einen GewinnVektor V+ (GB ) zerlegen. Wir erhalten V− (GB ) = (−1.143, −1.143, 0, 0, 0, −0.367, −1.469). und V+ (GB ) = (0, 0, 2.857, 0, 3.102, 0, 0). 120 KAPITEL 4. NORMIERUNG Daher errechnet sich der Gesamtverlust sumV− (GB ) durch sumV− (GB ) = n X V− (vi ) i=1 = (−1.143) + (−1.143) + 0 + 0 + 0 + (−0.367) + (−1.469) = −4.122 sowie der Gesamtgewinn sumV+ (GB ) durch sumV+ (GB ) = n X V+ (vi ) i=1 = 0 + 0 + 2.857 + 0 + 3.102 + 0 + 0 = 5.959. Die prozentuale Relativ-Verlustzentralität bestimmt sich dann durch V− (GB ) sumV− (GB ) (−1.143, −1.143, 0, 0, 0, −0.367, −1.469) = −4.122 = (0.277, 0.277, 0, 0, 0, 0.089, 0.356). V3− (GB ) = Entsprechend erhalten wir die prozentuale Relativ-Gewinnzentralität durch V+ (GB ) sumV+ (GB ) (0, 0, 2.857, 0, 3.102, 0, 0) = 5.959 = (0, 0, 0.479, 0, 0.521, 0, 0). V3+ (GB ) = Somit erhalten wir eine prozentuale Relativ-Verhandlungszentralität von V3 (GB ) = V3+ (GB ) − V3− (GB ) = (0, 0, 0.479, 0, 0.521, 0, 0) − (0.277, 0.277, 0, 0, 0, 0.089, 0.356) = (−0.277, −0.277, 0.479, 0, 0.521, −0.089, −0.356). 4.3 Normierung der Nachbarzentralitäten 4.3.5 PageRank R Der PageRank des Graphen GB wurde in (3.2.5) bestimmt, er beträgt R(GB ) = (0.211, 0.026, 0.330, 0.273, 0.063, 0.026, 0.071). innerer Relativ-PageRank Das innere Maximum von R(GB ) berechnet sich zu maxR(GB ) = max R(vi ) i∈{1,...,n} = max(0.211, 0.026, 0.330, 0.273, 0.063, 0.026, 0.071) = 0.330. Damit ergibt sich für den inneren Relativ-PageRank der Vektor R(GB ) maxR(GB ) (0.211, 0.026, 0.330, 0.273, 0.063, 0.026, 0.071) = 0.330 = (0.639, 0.079, 1, 0.827, 0.191, 0.079, 0.215). R2 (GB ) = prozentualer Relativ-PageRank Die Gesamtzentralität von R(GB ) berechnet sich zu sumR(GB ) = n X R(vi ) i=1 X = (0.211, 0.026, 0.330, 0.273, 0.063, 0.026, 0.071) = 0.211 + 0.026 + 0.330 + 0.273 + 0.063 + 0.026 + 0.071 = 1. Damit ergibt sich für den prozentualen Relativ-PageRank der Vektor 121 122 KAPITEL 4. NORMIERUNG R(GB ) sumR(GB ) (0.211, 0.026, 0.330, 0.273, 0.063, 0.026, 0.071) = 1 = R(GB ). R3 (GB ) = 4.3.6 Authorities KA und Hubs KH Authorities Der Authorities-Vektor des Graphen GB wurde in (3.2.6) bestimmt, er lautet KA (GB ) = (0.079, 0, 0.676, 0.442, 0.470, 0, 0.348). äußere Relativ-Authorities Wir wollen das äußere Maximum der Authorities KA bestimmen. KA bestimmt sich als Eigenvektor zum größten Eigenwert der Gleichung AT Av = λv. 1 2 3 8 9 7 6 4 5 Abbildung 4.2: nach innen gerichteter Stern mit 9 Knoten 4.3 Normierung der Nachbarzentralitäten 123 Um die zu verschiedenen Graphen gehörenden Vektoren sinnvoll vergleichen zu können, werden wir diese zunächst euklidisch, d.h. bzgl. || ||2 normieren. Der maximale Eintrag eines solchen Vektors ist ganz allgemein durch 1 nach oben beschränkt. Dieser Wert 1 wird vom Zentrum eines nach innen gerichteten Sterns (Abb. 4.2) angenommen. Daher gilt KAmax (n) = 1. Da für die Authorities KA bereits euklidisch normierte Vektoren gefordert werden, gilt für die äußeren Relativ-Authorities KA1 (GB ) := KA (GB ) = (0.079, 0, 0.676, 0.442, 0.470, 0, 0.348). 1 innere Relativ-Authorities Das innere Maximum von KA (GB ) berechnet sich zu maxKA (GB ) = max KA (vi ) i∈{1,...,n} = max(0.079, 0, 0.676, 0.442, 0.470, 0, 0.348) = 0.676. Damit ergibt sich für die inneren Relativ-Authorities der Vektor KA (GB ) maxKA (GB ) (0.079, 0, 0.676, 0.442, 0.470, 0, 0.348) = 0.676 = (0.117, 0, 1, 0.654, 0.695, 0, 0.515). KA2 (GB ) = prozentuale Relativ-Authorities Die Gesamtzentralität von KA (GB ) berechnet sich zu 124 KAPITEL 4. NORMIERUNG n X sumKA (GB ) = KA (vi ) i=1 X = (0.079, 0, 0.676, 0.442, 0.470, 0, 0.348) = 0.079 + 0 + 0.676 + 0.442 + 0.470 + 0 + 0.348 = 2.015. Damit ergibt sich für die prozentualen Relativ-Authorities der Vektor KA (GB ) sumKA (GB ) (0.079, 0, 0.676, 0.442, 0.470, 0, 0.348) = 2.015 = (0.039, 0, 0.335, 0.219, 0.233, 0, 0.173). KA3 (GB ) = Hubs Der Hubs-Vektor des Graphen GB wurde in (3.2.6) bestimmt, er lautet KH (GB ) = (0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620). äußere Relativ-Hubs Wir wollen das äußere Maximum der Hubs KH bestimmen. KH bestimmt sich als Eigenvektor zum größten Eigenwert der Gleichung AAT v = λv. Um die zu verschiedenen Graphen gehörenden Vektoren sinnvoll vergleichen zu können, werden wir diese zunächst euklidisch, d.h. bzgl. || ||2 normieren. Der maximale Eintrag eines solchen Vektors ist ganz allgemein durch 1 nach oben beschränkt. Dieser Wert 1 wird vom Zentrum eines nach außen gerichteten Sterns (Abb. 4.3) angenommen. Daher gilt KH max (n) = 1. 4.3 Normierung der Nachbarzentralitäten 125 1 2 3 8 9 7 6 4 5 Abbildung 4.3: nach außen gerichteter Stern mit 9 Knoten Da für die Hubs KH bereits euklidisch normierte Vektoren gefordert werden, gilt für die äußeren Relativ-Hubs KH1 (GB ) := KH (GB ) = (0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620). 1 innere Relativ-Hubs Das innere Maximum von KH (GB ) berechnet sich zu maxKH (GB ) = max KH (vi ) i∈{1,...,n} = max(0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620) = 0.620. Damit ergibt sich für die inneren Relativ-Hubs der Vektor KH (GB ) maxKH (GB ) (0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620) = 0.620 = (0.426, 0.426, 0.329, 0, 0.497, 0.940, 1). KH2 (GB ) = 126 KAPITEL 4. NORMIERUNG prozentuale Relativ-Hubs Die Gesamtzentralität von KH (GB ) berechnet sich zu sumKH (GB ) = n X KH (vi ) i=1 X = (0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620) = 0.264 + 0.264 + 0.204 + 0 + 0.308 + 0.583 + 0.620 = 2.243. Damit ergibt sich für die prozentualen Relativ-Hubs der Vektor KH (GB ) sumKH (GB ) (0.264, 0.264, 0.204, 0, 0.308, 0.583, 0.620) = 2.243 = (0.118, 0.118, 0.091, 0, 0.137, 0.260, 0.276). KH3 (GB ) = 4.4 Normierung der Entfernungszentralitäten Da die den folgenden Abschnitten behandelten Entfernungszentralitäten nur für ungerichtete Graphen definiert sind, werden wir bei den Beispielen jeweils den in (3.2.3, S. 52) definierten Graphen GB̃ betrachten. ▲ Im folgenden werden die Zentralitäts-Vektoren als Zeilenvektoren betrachtet! Außerdem beinhalten die Gleichheitszeichen in diesem Abschnitt numerische Rundungsfehler. 4.4.1 Stresszentralität ST Die Stresszentralität des Graphen GB̃ wurde in (3.3.1) bestimmt, sie beträgt ST (GB̃ ) = (0, 0, 14, 3, 1, 3, 4). 4.4 Normierung der Entfernungszentralitäten innere Relativ-Stresszentralität Das innere Maximum von ST (GB̃ ) berechnet sich zu maxST (GB̃ ) = max ST (vi ) i∈{1,...,n} = max(0, 0, 14, 3, 1, 3, 4) = 14. Damit ergibt sich für die innere Relativ-Stresszentralität der Vektor ST (GB̃ ) maxST (GB̃ ) (0, 0, 14, 3, 1, 3, 4) = 14 µ ¶ 3 1 3 2 = 0, 0, 1, , , , 14 14 14 7 = (0, 0, 1, 0.214, 0.071, 0.214, 0.285). ST 2 (GB̃ ) = prozentuale Relativ-Stresszentralität Die Gesamtzentralität von ST (GB̃ ) berechnet sich zu sumST (GB̃ ) = n X ST (vi ) i=1 = 0 + 0 + 14 + 3 + 1 + 3 + 4 = 25. Damit ergibt sich für die prozentuale Relativ-Stresszentralität der Vektor ST (GB̃ ) sumST (GB̃ ) (0, 0, 14, 3, 1, 3, 4) = 25 µ ¶ 14 3 1 3 4 = 0, 0, , , , , 25 25 25 25 25 = (0, 0, 0.56, 0.12, 0.04, 0.012, 0.16). ST 3 (GB̃ ) = 127 128 4.4.2 KAPITEL 4. NORMIERUNG Zwischenzentralität ZW Die Zwischenzentralität des Graphen GB̃ wurde in (3.3.2) bestimmt, sie beträgt µ ZW(GB̃ ) = 1 1 1 0, 0, 9 , 1, , 1, 1 3 3 3 ¶ . äußere Relativ-Zwischenzentralität Wir suchen also ein Maß, das den Wert der Zwischenzentralität eines Graphen G relativ zum maximal möglichen Wert eines Graphen gleicher Größe angibt. Zunächst ist also das äußere Maximum zu berechnen. [10] zeigt, dass dieser maximale Wert ZW max (n), den ZW in einem Graphen mit n Knoten annehmen kann, nur von dem Zentrum eines Sterns erreicht wird. Er beträgt ZW max (n) = n2 − 3n + 2 . 2 Daher definieren wir für einen Graphen G ZW 1 (G) := = ZW(G) ZW max (n) 2 · ZW(G) n2 − 3n + 2 die äußere Relativ-Zwischenzentralität von G. Selbstverständlich bewegt sich ZW 1 (vk ) im Intervall [0, 1]. Nur das Zentrum eines Sterns erreicht hierbei den Wert 1. Der Wert Null wird z.B. von den Knoten eines vollständigen Graphen angenommen. Das äußere Maximum von Graphen mit 7 Knoten, wie unser Beispielgraph GB̃ , berechnet sich demnach zu 72 − 3 · 7 + 2 2 = 15. ZW max (7) = 4.4 Normierung der Entfernungszentralitäten 129 Damit ergibt sich für die äußere Relativ-Zwischenzentralität von GB̃ der Vektor ZW(GB̃ ) ZW max (7) ¢ ¡ 0, 0, 9 13 , 1, 13 , 1, 1 13 = 15 µ ¶ 28 1 1 1 4 = 0, 0, , , , , 45 15 45 15 45 = (0, 0, 0.622, 0.067, 0.022, 0.067, 0.089). ZW 1 (GB̃ ) = innere Relativ-Zwischenzentralität Das innere Maximum von ZW(GB̃ ) berechnet sich zu max ZW(vi ) µ ¶ 1 1 1 = max 0, 0, 9 , 1, , 1, 1 3 3 3 1 = 9 . 3 maxZW(GB̃ ) = i∈{1,...,n} Damit ergibt sich für die innere Relativ-Zwischenzentralität der Vektor ZW(GB̃ ) maxZW(GB̃ ) ¢ ¡ 0, 0, 9 13 , 1, 13 , 1, 1 13 = 9 13 µ ¶ 3 1 3 4 = 0, 0, 1, , , , 28 28 28 28 = (0, 0, 1, 0.107, 0.036, 0.107, 0.143). ZW 2 (GB̃ ) = prozentuale Relativ-Zwischenzentralität Die Gesamtzentralität von ZW(GB̃ ) berechnet sich zu 130 KAPITEL 4. NORMIERUNG sumZW(GB̃ ) = n X ZW(vi ) i=1 1 1 1 = 0+0+9 +1+ +1+1 3 3 3 = 13. Damit ergibt sich für die prozentuale Relativ-Zwischenzentralität der Vektor ZW(GB̃ ) sumZW(GB̃ ) ¢ ¡ 0, 0, 9 13 , 1, 13 , 1, 1 13 = 13 µ ¶ 28 1 1 1 4 = 0, 0, , , , , 39 13 39 13 39 = (0, 0, 0.718, 0.077, 0.026, 0.077, 0.103). ZW 3 (GB̃ ) = 4.4.3 Abstandszentralität AB Die Abstandszentralität des Graphen GB̃ wurde in (3.3.3) bestimmt, sie beträgt µ AB(GB̃ ) = 1 1 1 1 1 1 1 , , , , , , 12 12 7 9 11 9 8 ¶ . äußere Relativ-Abstandszentralität Wie in den vorangegangenen Abschnitten ist auch die Abstandszentralität abhängig von der Anzahl der Knoten des betrachteten Netzwerks. Um Graphen unterschiedlicher Größe vergleichen zu können, wollen wir diesen Einfluss daher auch hier eliminieren. Die in einem Graphen mit n Knoten minimal mögliche Gesamtentfernung eines Knotens zu allen anderen Knoten entspricht dem maximal möglichen Grad eines Knoten, nämlich 4.4 Normierung der Entfernungszentralitäten min min n X G=(V,E) k∈{1,...,n} i=1 |V |=n d(vi , vk ) = max 131 max d(vk ) G=(V,E) k∈{1,...,n} |V |=n = n − 1. Die maximal erreichbare Abstandszentralität beträgt daher 1 . n−1 AB max (n) = Diese wird genau von den Knoten erreicht, welche zu allen anderen Knoten des Netzwerks adjazent sind. Wir definieren daher für k = 1, . . . , n AB 1 (vk ) := = = AB(vk ) AB max (n) µn ¶−1 P d(vi , vk ) i=1 1 n−1 n P n−1 . d(vi , vk ) i=1 die äußere Relativ-Abstandszentralität des Knotens vk . AB 1 (vk ) bewegt sich im Intervall (0, 1] ⊂ [0, 1], wobei der Wert 1 genau von den Knoten maximalen Eingangsgrades angenommen wird. Der Wert Null wird nicht angenommen, da, ausgehend von Graphen mit mindestens zwei Knoten, für den Zähler n − 1 > 0 gilt, und der Nenner wegen der Beschränkung auf zusammenhängende Graphen immer < ∞ ist. Das äußere Maximum von Graphen mit 7 Knoten, wie unser Beispielgraph GB̃ , berechnet sich demnach zu 1 7−1 1 = . 6 AB max (7) = 132 KAPITEL 4. NORMIERUNG Damit ergibt sich für die äußere Relativ-Abstandszentralität der Vektor AB 1 (GB̃ ) = = AB(GB̃ ) AB max (7) ¡ 1 1 1 1 1 1 1¢ , , , , , , 12 12 7 9 11 9 8 1 6 µ ¶ 1 1 6 2 6 2 3 = , , , , , , 2 2 7 3 11 3 4 = (0.5, 0.5, 0.857, 0.667, 0.545, 0.667, 0.75). innere Relativ-Abstandszentralität Das innere Maximum von AB(GB̃ ) berechnet sich zu max AB(vi ) µ ¶ 1 1 1 1 1 1 1 = max , , , , , , 12 12 7 9 11 9 8 1 . = 7 maxAB(GB̃ ) = i∈{1,...,n} Damit ergibt sich für die innere Relativ-Abstandszentralität der Vektor AB 2 (GB̃ ) = = AB(GB̃ ) maxAB(GB̃ ) ¡ 1 1 1 1 1 1 1¢ , , , , , , 12 12 7 9 11 9 8 µ 1 7 ¶ 7 7 7 7 7 7 = , , 1, , , , 12 12 9 11 9 8 = (0.583, 0.583, 1, 0.778, 0.636, 0.778, 0.875). prozentuale Relativ-Abstandszentralität Die Gesamtzentralität von AB(GB̃ ) berechnet sich zu 4.4 Normierung der Entfernungszentralitäten sumAB(GB̃ ) = n X 133 AB(vi ) i=1 1 1 1 1 1 1 1 + + + + + + 12 12 7 9 11 9 8 = 0.748. = Damit ergibt sich für die prozentuale Relativ-Abstandszentralität der Vektor AB(GB̃ ) sumAB(GB̃ ) ¡ 1 1 1 1 1 1 1¢ , , , , , , = 12 12 7 9 11 9 8 0.748 = (0.111, 0.111, 0.191, 0.149, 0.122, 0.149, 0.167). AB 3 (GB̃ ) = 4.4.4 Graphenzentralität GR Die Graphenzentralität des Graphen GB̃ wurde in (3.3.4) bestimmt, sie beträgt µ GR(GB̃ ) = 1 1 1 1 1 1 1 , , , , , , 3 3 2 2 3 2 2 ¶ . äußere Relativ-Graphenzentralität Wie in den vorangegangenen Abschnitten ist auch die Graphenzentralität abhängig von der Anzahl der Knoten des betrachteten Netzwerks. Um Graphen unterschiedlicher Größe vergleichen zu können, wollen wir diesen Einfluss daher auch hier eliminieren. Das äußere Maximum der Graphenzentralität bestimmt sich als Inverses des minimal möglichen Maximalabstandes. Dieser ist sicherlich bei allen Knoten maximalen Grades gleich 1, da deren Entfernung zu allen Knoten gleich 1 ist, d.h. GRmax (n) = 1. 134 KAPITEL 4. NORMIERUNG Die äußere Relativ-Graphenzentralität GR1 entspricht daher der (gewöhnlichen) Graphenzentralität GR, d.h. für k ∈ {1, . . . , n} gilt GR(vk ) GRmax (n) GR(vk ) = 1 = GR(vk ). GR1 (vk ) = GR und GR1 bewegen sich im Intervall (0, 1] ⊂ [0, 1], wobei der Wert 1 genau von den Knoten maximalen Grades angenommen wird. Der Wert Null wird nicht angenommen, da in endlichen Graphen der maximale Abstand zu den anderen Knoten immer endlich ist, und das Inverse daher ungleich Null. Das äußere Maximum von Graphen mit 7 Knoten, wie unser Beispielgraph GB̃ , berechnet sich demnach zu GRmax (7) = 1. Damit ergibt sich für unseren Beispielgraph GB̃ eine äußere Relativ-Graphenzentralität von GR1 (GB̃ ) = GR(GB̃ ) µ ¶ 1 1 1 1 1 1 1 = , , , , , , 3 3 2 2 3 2 2 = (0.333, 0.333, 0.5, 0.5, 0.333, 0.5, 0.5). innere Relativ-Graphenzentralität Das innere Maximum von GR(GB̃ ) berechnet sich zu max GR(vi ) µ ¶ 1 1 1 1 1 1 1 = max , , , , , , 3 3 2 2 3 2 2 1 = . 2 maxGR(GB̃ ) = i∈{1,...,n} 4.4 Normierung der Entfernungszentralitäten 135 Damit ergibt sich für die innere Relativ-Graphenzentralität der Vektor GR(GB̃ ) maxGR(GB̃ ) ¡1 1 1 1 1 1 1¢ , , , , , , 3 3 2 2 3 2 2 GR2 (GB̃ ) = = 1 2 ¶ 2 2 2 , , 1, 1, , 1, 1 = 3 3 3 = (0.667, 0.667, 1, 1, 0.667, 1, 1). µ prozentuale Relativ-Graphenzentralität Die Gesamtzentralität von GR(GB̃ ) berechnet sich zu sumGR(GB̃ ) = n X GR(vi ) i=1 1 1 1 1 1 1 1 + + + + + + 3 3 2 2 3 2 2 = 3. = Damit ergibt sich für die prozentuale Relativ-Graphenzentralität der Vektor GR(GB̃ ) sumGR(GB̃ ) ¡1 1 1 1 1 1 1¢ , , , , , , = 3 3 2 2 3 2 2 3 µ ¶ 1 1 1 1 1 1 1 = , , , , , , 9 9 6 6 9 6 6 = (0.111, 0.111, 0.167, 0.167, 0.111, 0.167, 0.167). GR3 (GB̃ ) = 136 KAPITEL 4. NORMIERUNG Kapitel 5 Zusammenfassung In Kapitel 3 haben wir verschiedene Ansätze zur Definition von Zentralitätsmaßen betrachtet. Dabei gehen wir jeweils aus von einer Problemstellung aus der realen Welt. Die Vorgaben dabei sind eine Menge von Objekten O (z.B. Personen, Webpages) und eine darauf existierende Struktur, die durch Beziehungen zwischen den einzelnen Objekten gegeben ist. Bei diesen Beziehungen handelt es sich zum Beispiel um Freundschaften zwischen Personen oder um die Verlinkung von Webpages. Den Objekten wird nun aufgrund ihrer strukturellen Lage ein sogenanntes Zentralitätsmaß zugeordnet. Die Höhe des zugeordneten Wertes soll dabei für etwas stehen wie Beliebtheit, Qualität, Wichtigkeit, usw., kurz Zentralität des bewerteten Objektes. Um das gegebene Problem lösen zu können, werden die Grundmengen an Objekten und Beziehungen modelliert durch einen Graph G = (V, E), d.h. jedes Objekt oi ∈ O wird identifiziert mit einem Knoten vi ∈ V , die Beziehungen zwischen den Objekten werden dargestellt durch Kanten e ∈ E, wobei e := (vi , vj ) ∈ E gdw. “Objekt oi steht in Beziehung zu Objekt oj“. Unser so entstandenes Graphenmodell kann nun dargestellt werden durch eine Adjazenzmatrix A = (aij )i,j=1,...,n , deren Einträge bestimmt werden durch die Zuordnung ( 1 , falls (vi , vj ) ∈ E . aij = 0 , sonst 138 KAPITEL 5. ZUSAMMENFASSUNG Manchmal erweist es sich als sinnvoll, die Intensität einer Beziehung durch die Angabe eines Wertes auszudrücken. Daher wird noch eine Gewichtsfunktion c : E → R+ für die Bewertung der Kanten vorgesehen. Unser Graphenmodell wird dann dargestellt durch die gewichtete Adjazenzmatrix W = (wij )i,j=1,...,n , wobei ( c(vi , vj ) , falls (vi , vj ) ∈ E . wij = 0 , sonst Die Vorgaben aus der realen Welt sind damit vollständig modelliert durch einen Graphen G bzw. die dazugehörende Adjazenzmatrix A (oder W ). Zur Bewertung der Knoten eines Graphen werden zwei verschiedene Ansätze betrachtet. 1. Nachbarzentralitäten: Die Bewertung eines Knotens hängt ab von seinen Nachbarn und/oder ihrer Bewertung. Die Bestimmung der Maße erfolgt jeweils über die Lösung eines linearen Gleichungssystems oder einer Eigenwertgleichung. 2. Entfernungszentralitäten: Die Bewertung eines Knotens hängt ab von seiner Entfernung zu den anderen Knoten. Die Bestimmung der Maße erfolgt über verschiedene Graphenalgorithmen, wobei jeweils die Bestimmung der Menge der kürzesten Wege eines Graphen hilfreich sein kann. 139 Die so bestimmten Werte sind auch von der Größe des betrachteten Graphen abhängig. Daher ist es nicht sinnvoll möglich, Graphen unterschiedlicher Größe untereinander zu vergleichen. In Kapitel 4 werden drei verschiedene Ansätze aufgezeigt, um diese Abhängigkeit zu eliminieren. 1. äußere Relativ-Zentralität: Das äußere Maximum, d.h. der maximal erreichbare Zentralitätswert in einem Graphen gleicher Größe wird bestimmt. Die tatsächlich erreichten Werte werden dazu in Relation gestellt. Es stellt sich heraus, dass die Bestimmung des äußeren Maximums nicht für alle Zentralitätsmaße möglich ist. 2. innere Relativ-Zentralität: Die berechneten Werte werden durch das innere Maximum, d.h. den im betrachteten Graphen maximal erreichten Zentralitätswert geteilt. Da bei der Verhandlungszentralität V (3.2.4) negative Werte auftreten können, wird das innere Maximum über die Beträge der erreichten Werte bestimmt. 3. prozentuale Relativ-Zentralität: Der Zentralitätsvektor wird durch die Gesamtzentralität, d.h. die Summe seiner Komponenten dividiert. Da bei der Verhandlungszentralität V (3.2.4) negative Werte auftreten können, wird der Zentralitätsvektor für die Normierung in Gewinn- und Verlust-Vektor zerlegt. Damit stehen uns vielfältige Möglichkeiten zur Auswahl und Bestimmung von Zentralitätsmaßen in Graphen zur Verfügung. Die Beispiele zeigen, dass die Auswertung von Graphen durch unterschiedliche Maße zu verschiedenen Ergebnissen führen kann (s.a. Anhang A). Dies macht die passende Auswahl eines Maßes notwendig. Die Kriterien hierfür sind nicht mathematischer Natur. 140 KAPITEL 5. ZUSAMMENFASSUNG Anhang A Beispielgraph GC In den Kapiteln 3 und 4 wurden die vorgestellten Zentralitätsmaße anhand von Beispielgraphen ausgewertet. Da einige der Maße für gerichtete, andere lediglich für ungerichtete Graphen geeignet sind, wurden dabei zwei unterschiedliche Graphen betrachtet. Zum einen der gerichtete Graph GB , zum anderen der ungerichtete Graph GB̃ . Ein direkter Vergleich der Zentralitätswerte dieser beiden Graphen ist wenig sinnvoll. Daher werden wir hier sämtliche vorgestellten normierten Zentralitätsmaße für einen ausgewählten ungerichteten Graphen bestimmen und visualisieren. Im folgenden betrachten wir den durch die Adjazenzmatrix C dargestellten Graph GC . C= 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 142 ANHANG A. BEISPIELGRAPH GC Abb. A.1 zeigt eine Einbettung des resultierenden Graphen. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.1: Beispielgraph GC Nachfolgend werden für GC zu jedem der Zentralitätsmaße die normierten Vektoren, d.h. äußere Relativ-Zentralität Z1 (GC ), innere Relativ-Zentralität Z2 (GC ) und prozentuale Relativzentralität Z3 (GC ) angegeben und in einem Diagramm dargestellt. Die Bestimmung der Zentralitätswerte erfolgte, wenn möglich, mit Visone (www.visone.de). Bemerkung: Der Graph GC ist der kleinste bekannte Graph, der auf vier unterschiedlichen Knoten die Maximalwerte der vier Zentralitätsmaße Popularitätsindex, Standardzentralität, Zwischenzentralität und Abstandszentralität annimmt. An der Vielfältigkeit der aufgeführten Zentralitätsmaße und ihrer Ergebnisse bei der Auswertung von Beispielgraphen erkennen wir, dass die sorgfältige Auswahl des zu einer Situation aus der realen Welt passenden Zentralitätsmaßes wesentlich für die Aussagekraft des Bewertungsergebnisses ist. 143 (3.1) Popularitätsindex P: P1 (GC ) = (0.1, 0.1, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.4, 0.1, 0.1) P2 (GC ) = (0.25, 0.25, 0.75, 0.75, 0.5, 0.75, 0.75, 0.5, 1, 0.25, 0.25) P3 (GC ) = (0.042, 0.042, 0.125, 0.125, 0.083, 0.125, 0.125, 0.083, 0.167, 0.042, 0.042) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 P1 (GC ) P2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 P3 (GC ) Die folgende Abb. A.2 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.2: Popularitätsindex am Beispielgraph GC 144 ANHANG A. BEISPIELGRAPH GC (3.2.1) Status-Index S: S1 (GC ) = nicht bekannt S2 (GC ) = (0.268, 0.268, 0.662, 0.873, 0.669, 0.944, 0.965, 0.690, 1, 0.352, 0.352) S3 (GC ) = (0.038, 0.038, 0.094, 0.124, 0.095, 0.134, 0.137, 0.098, 0.142, 0.050, 0.050) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.2 0.2 0.4 nicht bekannt 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 S1 (GC ) S2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 S3 (GC ) Die folgende Abb. A.3 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.3: Status-Index am Beispielgraph GC 145 (3.2.2) Hubbell-Index H (wo W := 14 A, q := 1): H1 (GC ) = nicht bekannt H2 (GC ) = (0.481, 0.481, 0.760, 0.911, 0.762, 0.957, 0.971, 0.781, 1, 0.541, 0.541) H3 (GC ) = (0.059, 0.059, 0.093, 0.111, 0.093, 0.117, 0.119, 0.096, 0.122, 0.066, 0.066) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.2 0.2 0.4 nicht bekannt 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 H1 (GC ) H2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 H3 (GC ) Die folgende Abb. A.4 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.4: Hubbell-Index am Beispielgraph GC 146 ANHANG A. BEISPIELGRAPH GC (3.2.3) Standardzentralität B: B1 (GC ) = (0.114, 0.114, 0.252, 0.551, 0.400, 0.564, 0.682, 0.501, 0.543, 0.244, 0.244) B2 (GC ) = (0.167, 0.167, 0.370, 0.809, 0.586, 0.827, 1, 0.735, 0.796, 0.358, 0.358) B3 (GC ) = (0.027, 0.027, 0.060, 0.131, 0.095, 0.134, 0.162, 0.119, 0.129, 0.058, 0.058) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 B1 (GC ) B2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 B3 (GC ) Die folgende Abb. A.5 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.5: Standardzentralität am Beispielgraph GC 147 (3.2.4) Verhandlungszentralität V: V1 (GC ) = nicht bekannt V2 (GC ) = (0.214, 0.214, 0.143, 1, −0.286, −0.143, 0.714, 0.286, 0.714, −0.071, −0.071) V3 (GC ) = (0.065, 0.065, 0.043, 0.304, −0.5, −0.25, 0.217, 0.087, 0.217, −0.125, −0.125) 1.0 0.8 0.6 0.4 nicht bekannt 0.2 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 V1 (GC ) 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 V2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 V3 (GC ) Auf eine Darstellung des Beispielgraphen GC mit größenveränderten Knoten wie bei den anderen Zentralitätsmaßen, wird hier, aufgrund der negativen Bewertung einzelner Knoten, verzichtet. 148 ANHANG A. BEISPIELGRAPH GC (3.2.5) PageRank P: P1 (GC ) = nicht bekannt P2 (GC ) = (0.361, 0.361, 0.861, 0.715, 0.494, 0.684, 0.690, 0.5, 1, 0.329, 0.329) P3 (GC ) = (0.057, 0.057, 0.136, 0.113, 0.078, 0.108, 0.109, 0.079, 0.158, 0.052, 0.052) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.2 0.2 0.4 nicht bekannt 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 P1 (GC ) P2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 P3 (GC ) Die folgende Abb. A.6 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.6: PageRank am Beispielgraph GC 149 (3.2.6) Authorities KA : KA1 (GC ) = (0.071, 0.071, 0.204, 0.342, 0.325, 0.455, 0.425, 0.313, 0.440, 0.153, 0.153) KA2 (GC ) = (0.156, 0.156, 0.448, 0.753, 0.714, 1, 0.935, 0.688, 0.968, 0.338, 0.338) KA3 (GC ) = (0.024, 0.024, 0.069, 0.116, 0.110, 0.154, 0.144, 0.106, 0.149, 0.052, 0.052) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 KA1 (GC ) KA2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 KA3 (GC ) Die folgende Abb. A.7 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.7: Authorities am Beispielgraph GC 150 ANHANG A. BEISPIELGRAPH GC (3.2.6) Hubs KH : KH1 (GC ) = (0.077, 0.077, 0.187, 0.378, 0.294, 0.413, 0.467, 0.342, 0.401, 0.169, 0.169) KH2 (GC ) = (0.166, 0.166, 0.401, 0.809, 0.631, 0.881, 1, 0.732, 0.860, 0.363, 0.363) KH3 (GC ) = (0.026, 0.026, 0.063, 0.127, 0.099, 0.139, 0.157, 0.115, 0.135, 0.057, 0.057) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 KH1 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 KH2 (GC ) KH3 (GC ) Die folgende Abb. A.8 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.8: Hubs am Beispielgraph GC 151 (3.3.1) Stresszentralität ST : ST 1 (GC ) = nicht bekannt ST 2 (GC ) = (0, 0, 0.790, 0.533, 0.185, 0.464, 0.464, 0.185, 1, 0, 0) ST 3 (GC ) = (0, 0, 0.218, 0.147, 0.051, 0.128, 0.128, 0.051, 0.276, 0, 0) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.2 0.2 0.4 nicht bekannt 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 ST 1 (GC ) ST 2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 ST 3 (GC ) Die folgende Abb. A.9 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.9: Stresszentralität am Beispielgraph GC 152 ANHANG A. BEISPIELGRAPH GC (3.3.2) Zwischenzentralität ZW: ZW 1 (GC ) = (0, 0, 0.378, 0.486, 0.134, 0.337, 0.304, 0.123, 0.397, 0, 0) ZW 2 (GC ) = (0, 0, 0.778, 1, 0.276, 0.693, 0.627, 0.253, 0.818, 0, 0) ZW 3 (GC ) = (0, 0, 0.175, 0.225, 0.062, 0.156, 0.141, 0.057, 0.184, 0, 0) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 ZW 1 (GC ) ZW 2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 ZW 3 (GC ) Die folgende Abb. A.10 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.10: Zwischenzentralität am Beispielgraph GC 153 (3.3.3) Abstandszentralität AB: AB 1 (GC ) = (0.279, 0.279, 0.370, 0.458, 0.437, 0.479, 0.458, 0.416, 0.400, 0.295, 0.295) AB2 (GC ) = (0.583, 0.583, 0.774, 0.957, 0.913, 1, 0.957, 0.870, 0.835, 0.617, 0.617) AB 3 (GC ) = (0.067, 0.067, 0.089, 0.11, 0.105, 0.115, 0.11, 0.1, 0.096, 0.071, 0.071) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 AB 1 (GC ) AB 2 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 AB 3 (GC ) Die folgende Abb. A.11 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.11: Abstandszentralität am Beispielgraph GC 154 ANHANG A. BEISPIELGRAPH GC (3.3.4) Graphenzentralität GR: GR1 (GC ) = (0.167, 0.167, 0.200, 0.250, 0.333, 0.333, 0.250, 0.250, 0.200, 0.167, 0.167) GR2 (GC ) = (0.5, 0.5, 0.604, 0.754, 1, 1, 0.754, 0.754, 0.604, 0.5, 0.5) GR3 (GC ) = (0.067, 0.067, 0.081, 0.101, 0.134, 0.134, 0.101, 0.101, 0.081, 0.067, 0.067) 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 0.0 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 GR1 (GC ) v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 GR2 (GC ) GR3 (GC ) Die folgende Abb. A.12 zeigt eine Einbettung des Beispielgraphen GC , wobei die Größe der Knoten die Höhe ihrer Bewertung widerspiegelt. 1 2 3 4 5 6 7 8 9 10 11 Abbildung A.12: Graphenzentralität am Beispielgraph GC Anhang B Grundlagen Definition B.1. Mit 0 := (0, . . . , 0)T bezeichnen wir den Nullvektor, mit 1 := (1, . . . , 1)T den mit Einsen gefüllten Spaltenvektor jeweils passender Dimension. Mit I bezeichnen wir die Einheitsmatrix mit jeweils zum Kontext passender Größe, d.h. ( 1 , falls i = j . Iij := 0 , sonst Definition B.2. Sei A = (aij ) ∈ Rn×n eine quadratische, reellwertige Matrix, x = (x1 , . . . , xn ) ein reellwertiger Vektor der Dimension n. Das MatrixVektor-Produkt Ax = y = (y1 , . . . , yn ) ist definiert durch (Ax)r = yr = n X k=1 ark xk für alle r ∈ {1, . . . , n}. 156 ANHANG B. GRUNDLAGEN Definition B.3. Seien A = (aij ), B = (bij ) ∈ Rn×n quadratische, reellwertige Matrizen. Das Matrix-Produkt A · B = AB = C = (cij ) ist definiert durch cij = n X aik bkj für alle i, j ∈ {1, . . . , n}. k=1 Definition B.4. Sei A eine quadratische Matrix mit reellwertigen Einträgen. Mit Al bezeichnen wir die l−te Potenz von A, d.h. Al := A · · · A} . | · ·{z l-mal Mit (Al )ij bezeichnen wir ihre Einträge. Allgemein definieren wir A0 := I. Satz B.5. Seien A = (aij ), B = (bij ) ∈ Rn×n quadratische, reellwertige Matrizen. Dann gilt (AB)T = B T AT . Beweis: siehe [9] ■ 157 Definition B.6. Sei {x1 , . . . , xk } ⊂ Rn . Dann heißt span(x1 , . . . , xn ) := {y ∈ Rn : y = c1 x1 + · · · + ck xk , ci ∈ R} der von {x1 , . . . , xk } aufgespannte Raum. Definition B.7. Eine Menge von Vektoren {x1 , . . . , xp } ⊂ Rn heißt linear unabhängig, wenn für alle λ1 , . . . , λp ∈ R gilt p X λi xi = 0 ⇒ λ1 = · · · = λp = 0. i=1 Definition B.8. Eine Menge {x1 , . . . , xn } ⊂ Rn von n linear unabhängigen Vektoren heißt Basis des Rn . Satz B.9. Sei {x1 , . . . , xn } ⊂ Rn eine Basis des Rn . Dann gilt span(x1 , . . . , xn ) = Rn . Beweis: siehe [9] ■ 158 ANHANG B. GRUNDLAGEN Definition B.10. Eine Abbildung (., .) : Rn ×Rn → R mit den Eigenschaften (S1) (x, x) ≥ 0 (Positivität) (S2) (x, x) = 0⇔x=0 (Definitheit) (S3) (x, y) = (y, x) (Symmetrie) (S4) (αx + βy, z) = α(x, z) + β(y, z) (Linearität) für alle x, y, z ∈ Rn und alle α, β ∈ R heißt Skalarprodukt auf Rn . Definition B.11. Seien x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn . Dann heißt n P <x, y> = xi yi i=1 = xT y das Standardskalarprodukt des Rn . Definition B.12. Eine Menge von Vektoren {x1 , . . . , xp } ⊂ Rn heißt orthonormal, falls gilt: und <xi , xj > = 0 für alle i 6= j <xi , xi > = 1 für alle i Definition B.13. Eine Basis {x1 , . . . , xn } ⊂ Rn aus orthonormalen Vektoren heißt Orthonormalbasis des Rn . 159 Definition B.14. Seien A = (aij ) ∈ Rn×n , eine Konstante λ ∈ R und ein vom Nullvektor verschiedener Vektor x ∈ Rn gegeben. Eine Gleichung Ax = λx heißt Eigenwertgleichung. x ist dann Eigenvektor von A zum Eigenwert λ. Satz B.15. Sei A ∈ Rn×n . Ist A symmetrisch, so existiert eine Menge von Eigenvektoren {x1 , . . . , xn } von A, die eine Orthonormalbasis des Rn bilden. Beweis: siehe [9] ■ Definition B.16. Eine Abbildung k k : Rn → R mit den Eigenschaften (N1) kxk ≥ 0 (Positivität) (N2) kxk = 0 ⇔ x = 0 (Definitheit) (N3) kγxk = |γ|kxk (N4) kx + yk ≤ kxk + kyk (Homogenität) (Dreiecksungleichung) für alle x, y ∈ Rn und alle γ ∈ R heißt Norm auf Rn . 160 ANHANG B. GRUNDLAGEN Definition B.17. Die euklidische Norm eines Vektors x = (x1 , . . . , xn ) ist definiert durch v u n uX kxk2 = t (xi )2 . i=1 Definition B.18. Sei A ∈ Rn×n gegeben. Die von einer Vektornorm k k induzierte Matrixnorm ist definiert durch kAxk x6=0 kxk = sup kAxk. kAk∗ : = sup kxk=1 Definition B.19. Zu einer Matrix A ist die euklidische Matrixnorm daher gegeben durch kAk∗2 = = sup kAxk2 kwk2 =1 v u n uX sup t ((Ax)i )2 . kwk2 =1 i=1 Satz B.20. Seien A, B ∈ Rn×n . Dann gilt kABk∗ ≤ kAk∗ kBk∗ . Beweis: siehe [19] ■ 161 Satz B.21. Sei A ∈ Rn×n , λmax der größte Eigenwert von A. Dann gibt es einen positiven Wert ² ∈ R+ und eine Norm k k² auf Rn so, dass für die induzierte Matrixnorm gilt: λmax ≤ kAk∗² ≤ λmax + ² Beweis: siehe [19] ■ Definition B.22. Zwei Normen k ka und k kb heißen äquivalent, wenn positive Zahlen c und C existieren, so dass ckxka ≤ kxkb ≤ Ckxka für alle x ∈ Rn . Satz B.23. Im Rn sind alle Normen äquivalent. Beweis: siehe [19] ■ 162 ANHANG B. GRUNDLAGEN Literaturverzeichnis [1] Alt, H. W.: Lineare Funktionalanalysis, Springer-Verlag, 3. Auflage, 1999 [2] Bonacich, Phillip: Factoring and weighting approaches to status scores and clique identification. Journal of Mathematical Sociology, Vol. 2: 113120, 1972. [3] Bonacich, Phillip: A technique for analyzing overlapping memberships. Socological Methodology: 176-185, 1972. [4] Bonacich, Phillip: Power and centrality: A family of measures. American Journal of Sociology, 92:1170-1182, 1987. [5] Brandes, Ulrik: A faster algorithm for betweenness centrality. Journal of Mathematical Sociology 25(2):163-177, 2001. [6] Brin, Sergey; Page, Lawrence: The anatomy of a large-scale hypertextual Web search engine. Proceedings of the 7th International World Wide Web Conference: 107-117, 1998. [7] Brin, Sergey; Page, Lawrence, et al.: The PageRank citation ranking: Bringing order to the Web. Technical report, Stanford University, Stanford, CA. 1998. [8] Cvetkovic, M.; Doob, M.; Sachs, H.: Spectra of Graphs, Johann Ambrosius Barth, 3rd edition, 1995 [9] Fischer, Gerd: Lineare Algebra, Vieweg, 9. Auflage, 1986 [10] Freeman, Linton C.: A set of measures of centrality based on betweenness. Sociometry Vol.40, No. 1: 35-41, 1977. 164 LITERATURVERZEICHNIS [11] Freeman, Linton C.: Centrality in social networks, conceptual clarification. Social Networks 1: 215-239, 1978/79. [12] Gantmacher, F. R.: Applications of the Theory of Matrices, Interscience Publishers, 1959 [13] Gantmacher, F. R.: Matrizenrechnung I, VEB Deutscher Verlag der Wissenschaften, 2. Auflage, 1965 [14] Gantmacher, F. R.: Matrizenrechnung II, VEB Deutscher Verlag der Wissenschaften, 2. Auflage, 1966 [15] Gantmacher, F. R.: Matrizentheorie, Springer-Verlag, 1986 [16] Hubbell, Charles H.: An input-output-approach to clique identification. Sociometry 28: 377-399, 1966. [17] Katz, Leo: A new status index derived from sociometric analysis. Psychometrika – Vol. 18, No. 1: 39-43 March, 1953. [18] Kleinberg, Jon M.: Authoritative Sources in a hyperlinked Environment. Journal of the ACM, Vol. 46, No. 5:604-632, 1999. [19] Lube, G.: Numerische Mathematik, Wintersemester 2000/01. [20] Papendieck, Britta: Eigenvector-centrality–a Node-centrality? 2000. [21] Papendieck, Britta; Recht, Peter: On maximal entries in the principal eigenvector of graphs. 1999.