Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 Institutund für Theoretische KIT –Henning Universität desMeyerhenke, Landes Baden-Württemberg nationales Forschungszentrum in der Helmholtz-Gemeinschaft Algorithmische Methoden zur Netzwerkanalyse Informatik www.kit.edu Vorlesung 13 Programm des Tages: Generierung von Graphen Barabási-Albert-Modell Chung-Lu-Modell R-MAT-Graphen 2 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Wiederholung Realisierbarkeit von Gradfolgen: Satz von Erdös und Gallai 3 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Inhalt Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Chung-Lu-Modell R-MAT-Graphen 4 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Barabási-Albert-Modell Preferential Attachment Ziele: Gradverteilung ähnlich wie bei realen komplexen Netzwerken Community-Struktur Kleiner Durchmesser Parameter: n: Zahl der Knoten c: Grad eines neuen Knotens Idee: Neuer Knoten verbindet sich zu c bereits bestehenden, Wkt. abhängig vom Grad der anderen Knoten 5 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Barabási-Albert-Modell Generierung Initial: Nicht genau festgelegt Mindestens c Knoten Bspw. Pfad oder Clique mit c Knoten Einfügen eines Knotens v : c ungerichtete Kanten {v , u } zufällig einfügen Wkt. proportional zum Knotengrad von u Weder Knoten noch Kanten werden jemals entfernt! Beispiel: Siehe Tafel! 6 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Barabási-Albert-Modell Eigenschaften Proposition (Gradverteilung) Im BA-Modell ergibt sich die Gradverteilung pk = 2c (c + 1) k (k + 1)(k + 2) für k ≥ c. Daraus resultiert im Grenzwert eine Power-Law-Gradverteilung mit pk ∼ k − 3 7 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Barabási-Albert-Modell Diskussion Vorteile: Einfach zu beschreiben Wenige Parameter Gradverteilung folgt Potenzgesetz Nachteile: Gradverteilung hat festen Power-Law-Exponenten Generierung inhärent sequentiell 8 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Inhalt Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Chung-Lu-Modell R-MAT-Graphen 9 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Chung-Lu-Modell Das Chung-Lu-Modell (CL) Ziele: Vorgegebene Gradverteilung Community-Struktur Kleiner Durchmesser (Parallele Generierung) Parameter: Erwartete Gradfolge D 10 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Chung-Lu-Modell Das Chung-Lu-Modell (CL) Generierung Einfügen einer Kante {u , v }: Weder Knoten noch Kanten werden jemals entfernt Kante {u , v } wird mit Wkt. puv generiert puv ∼ deg(u ) · deg(v ), typischerweise deg(u ) deg(v )/ ∑v 0 ∈V deg(v 0 ) puv unabhängig pro Kante Schleifen sind erlaubt Ähnlichkeiten: Bei D = (pn, pn, . . . , pn) entspricht CL dem G (n, p )-Modell Ähnlich zu SKG- bzw. R-MAT-Modell (später...) 11 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Chung-Lu-Modell Das Chung-Lu-Modell Eigenschaften Sei β der Power-Law-Exponent der Gradfolge D. Proposition (Gradverteilung) Im CL-Modell ergibt sich bei absteigender Sortierung von D die Gradverteilung E[deg(v )] = κv −1/( β−1) für κ = 12 β−2 0 1/( β−1) β −1 d n und d 0 als arithmetisches Mittel von D. Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Chung-Lu-Modell Das Chung-Lu-Modell Diskussion Vorteile: Einfach und effizient Beliebige erwartete Gradfolge wird nachgebildet Nachteile: (Eher wenig verwendet) Ähnlichkeiten: Sehr ähnlich zu SKG/R-MAT 13 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen Das Chung-Lu-Modell Inhalt Modelle für (Zufalls)Graphen Das Barabási-Albert-Modell Das Chung-Lu-Modell R-MAT-Graphen 14 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen R-MAT-Graphen Rekursiver Matrix-Generator R-MAT Einführung Ziele: Gradverteilung ähnlich wie bei realen komplexen Netzwerken Community-Struktur Kleiner Durchmesser Skalierbarkeit Parameter: N = 2n : Zahl der Knoten E: Zahl der Kanten (a, b, c , d ): Wkt. für die rekursiven Quadranten der R-MAT-Matrix Generierung einer Kante: Siehe Tafel! 15 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen R-MAT-Graphen Bitweise Interpretation der Generierung Für 1 ≤ t ≤ n assoziieren wir den t-ten Quadranten mit dem t-ten Bit von i und j (v. l. n. r.). Beispiel: Generierung von Kante (i , j ) = (21, 7) Schritt Quadrant Bits von i Bits von j 1 UL 1 0 2 OL 10 00 3 UR 101 001 4 OR 1010 0011 5 UR 10101 00111 OL: Oben Links (00) OR: Oben Rechts (01) UL: Unten Links (10) UR: Unten Rechts (11) 16 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen R-MAT-Graphen Kontext Literaturhinweise Deepayan Chakrabarti, Yiping Zhan, Christos Faloutsos: R-MAT: A recursive model for graph mining. In Proc. SIAM Data Mining (SDM’04). SIAM, 2004. Chris Groër, Blair D. Sullivan, and Steve Poole: A mathematical analysis of the R-MAT random graph generator. Netw. 58, 3 (October 2011), 159-170. http://www.graph500.org/ 17 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen R-MAT-Graphen Example 1: The generation of the edge ij depicted in Figure 1 requires five steps. We begin in Step 0 with 5 empty bit positions for both i and j (these are denoted with a ⇤) and then Algorithmus set each bit to 0 or 1 moving from left to right based on the quadrant selected at each step. Aus [Groër et al., S.4] Algorithm 1 Given parameters ↵, , , with ↵ + + + = 1, generate a 0/1-adjacency matrix A = {aij } for a graph on 2k vertices containing at most M edges. 1: Set aij = 0 for 0 i, j 2k 1 2: for m = 1 to M do 3: Set i = 0, j = 0 // Initialize all bits to 0 4: for t = 0 to k 1 do 5: Generate r ⇠ U (0, 1) 6: if r 2 [↵, ↵ + ) then 7: j = j + 2k 1 t // Set bit to 1 in j 8: else if r 2 [↵ + , ↵ + + ) then 9: i = i + 2k 1 t // Set bit to 1 in i 10: else if r 2 [↵ + + , 1) then 11: i = i + 2k 1 t and j = j + 2k 1 t // Set bit to 1 in i and j 12: end if 13: end for 14: aij = aij + 1 15: end for 16: Replace all nonzero entries in A with ones Beispiel: Siehe Tafel! 2.3 18 Preliminaries Henning Meyerhenke, Institut für Theoretische Informatik WeAlgorithmische now give a Methoden number of and basic lemmas zurdefinitions Netzwerkanalyse Modelle für (Zufalls)Graphen necessary for our analysis of graphsR-MAT-Graphen Kanten und Grade Lemma (Kantenwkt., (Groër et al.)) Die Wkt., eine Kante e = (u , v ) in einer Iteration zu generieren, ist p (e ) = p (u , v ) = aea beb c ec d ed . Hierfür gilt, dass bei der Generierung ea mal Quadrant OL, eb mal OR usw. gewählt wurde. Theorem (Knotengrade (Groër et al.)) Sei u ein Knoten im Graphen G 0 , der aus G durch Entfernung von Duplikaten hervorgegangen ist. G wurde als R-MAT-Graph mit N = 2n Knoten und M = O (N ) erzeugt. Dann gilt bei N , M → ∞ für fast alle Knoten u: dG+0 (u ), dG−0 (u ) und dG0 (u ) sind asymptotisch normalverteilt. 19 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen R-MAT-Graphen Diskussion Frage: Was kommt raus, wenn 1/4 = a = b = c = d? Mehrfachkanten treten auf, nicht immer gewollt! Vermeidung oft nicht praktikabel Neue experimentelle Auswertungen: Community-Struktur nicht so stark ausgeprägt wie gewünscht Zahl der Dreiecke unterdurchschnittlich Frage: Warum? Ausblick: Andere Modelle 20 Henning Meyerhenke, Institut für Theoretische Informatik Algorithmische Methoden zur Netzwerkanalyse Modelle für (Zufalls)Graphen R-MAT-Graphen