Foliensatz 13

Werbung
Algorithmische Methoden zur
Netzwerkanalyse
Juniorprof. Dr. Henning Meyerhenke
Institut für Theoretische Informatik
1
Institutund
für Theoretische
KIT –Henning
Universität desMeyerhenke,
Landes Baden-Württemberg
nationales
Forschungszentrum
in der Helmholtz-Gemeinschaft
Algorithmische
Methoden
zur Netzwerkanalyse
Informatik
www.kit.edu
Vorlesung 13
Programm des Tages: Generierung von Graphen
Barabási-Albert-Modell
Chung-Lu-Modell
R-MAT-Graphen
2
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Wiederholung
Realisierbarkeit von Gradfolgen: Satz von Erdös und Gallai
3
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Inhalt
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Chung-Lu-Modell
R-MAT-Graphen
4
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Barabási-Albert-Modell
Preferential Attachment
Ziele:
Gradverteilung ähnlich wie bei realen komplexen Netzwerken
Community-Struktur
Kleiner Durchmesser
Parameter:
n: Zahl der Knoten
c: Grad eines neuen Knotens
Idee: Neuer Knoten verbindet sich zu c bereits bestehenden,
Wkt. abhängig vom Grad der anderen Knoten
5
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Barabási-Albert-Modell
Generierung
Initial:
Nicht genau festgelegt
Mindestens c Knoten
Bspw. Pfad oder Clique mit c Knoten
Einfügen eines Knotens v :
c ungerichtete Kanten {v , u } zufällig einfügen
Wkt. proportional zum Knotengrad von u
Weder Knoten noch Kanten werden jemals entfernt!
Beispiel: Siehe Tafel!
6
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Barabási-Albert-Modell
Eigenschaften
Proposition (Gradverteilung)
Im BA-Modell ergibt sich die Gradverteilung
pk =
2c (c + 1)
k (k + 1)(k + 2)
für k ≥ c.
Daraus resultiert im Grenzwert eine Power-Law-Gradverteilung mit
pk ∼ k − 3
7
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Barabási-Albert-Modell
Diskussion
Vorteile:
Einfach zu beschreiben
Wenige Parameter
Gradverteilung folgt Potenzgesetz
Nachteile:
Gradverteilung hat festen Power-Law-Exponenten
Generierung inhärent sequentiell
8
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Inhalt
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Chung-Lu-Modell
R-MAT-Graphen
9
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Chung-Lu-Modell
Das Chung-Lu-Modell (CL)
Ziele:
Vorgegebene Gradverteilung
Community-Struktur
Kleiner Durchmesser
(Parallele Generierung)
Parameter:
Erwartete Gradfolge D
10
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Chung-Lu-Modell
Das Chung-Lu-Modell (CL)
Generierung
Einfügen einer Kante {u , v }:
Weder Knoten noch Kanten werden jemals entfernt
Kante {u , v } wird mit Wkt. puv generiert
puv ∼ deg(u ) · deg(v ), typischerweise deg(u ) deg(v )/ ∑v 0 ∈V deg(v 0 )
puv unabhängig pro Kante
Schleifen sind erlaubt
Ähnlichkeiten:
Bei D = (pn, pn, . . . , pn) entspricht CL dem G (n, p )-Modell
Ähnlich zu SKG- bzw. R-MAT-Modell (später...)
11
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Chung-Lu-Modell
Das Chung-Lu-Modell
Eigenschaften
Sei β der Power-Law-Exponent der Gradfolge D.
Proposition (Gradverteilung)
Im CL-Modell ergibt sich bei absteigender Sortierung von D die
Gradverteilung
E[deg(v )] = κv −1/( β−1)
für κ =
12
β−2 0 1/( β−1)
β −1 d n
und d 0 als arithmetisches Mittel von D.
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Chung-Lu-Modell
Das Chung-Lu-Modell
Diskussion
Vorteile:
Einfach und effizient
Beliebige erwartete Gradfolge wird nachgebildet
Nachteile:
(Eher wenig verwendet)
Ähnlichkeiten:
Sehr ähnlich zu SKG/R-MAT
13
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
Das Chung-Lu-Modell
Inhalt
Modelle für (Zufalls)Graphen
Das Barabási-Albert-Modell
Das Chung-Lu-Modell
R-MAT-Graphen
14
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
R-MAT-Graphen
Rekursiver Matrix-Generator R-MAT
Einführung
Ziele:
Gradverteilung ähnlich wie bei realen komplexen Netzwerken
Community-Struktur
Kleiner Durchmesser
Skalierbarkeit
Parameter:
N = 2n : Zahl der Knoten
E: Zahl der Kanten
(a, b, c , d ): Wkt. für die rekursiven Quadranten der R-MAT-Matrix
Generierung einer Kante: Siehe Tafel!
15
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
R-MAT-Graphen
Bitweise Interpretation der
Generierung
Für 1 ≤ t ≤ n assoziieren wir
den t-ten Quadranten mit
dem t-ten Bit von i und j (v. l. n. r.).
Beispiel: Generierung von Kante (i , j ) = (21, 7)
Schritt
Quadrant
Bits von i
Bits von j
1
UL
1
0
2
OL
10
00
3
UR
101
001
4
OR
1010
0011
5
UR
10101
00111
OL: Oben Links (00)
OR: Oben Rechts (01)
UL: Unten Links (10)
UR: Unten Rechts (11)
16
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
R-MAT-Graphen
Kontext
Literaturhinweise
Deepayan Chakrabarti, Yiping Zhan, Christos Faloutsos:
R-MAT: A recursive model for graph mining.
In Proc. SIAM Data Mining (SDM’04). SIAM, 2004.
Chris Groër, Blair D. Sullivan, and Steve Poole:
A mathematical analysis of the R-MAT random graph generator.
Netw. 58, 3 (October 2011), 159-170.
http://www.graph500.org/
17
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
R-MAT-Graphen
Example 1: The generation of the edge ij depicted in Figure 1 requires five steps. We begin
in Step 0 with 5 empty bit positions for both i and j (these are denoted with a ⇤) and then
Algorithmus
set each bit to 0 or 1 moving from left to right based on the quadrant selected at each step.
Aus
[Groër et al., S.4]
Algorithm 1 Given parameters ↵, , , with ↵ + + + = 1, generate a 0/1-adjacency
matrix A = {aij } for a graph on 2k vertices containing at most M edges.
1: Set aij = 0 for 0  i, j  2k
1
2: for m = 1 to M do
3:
Set i = 0, j = 0
// Initialize all bits to 0
4:
for t = 0 to k 1 do
5:
Generate r ⇠ U (0, 1)
6:
if r 2 [↵, ↵ + ) then
7:
j = j + 2k 1 t
// Set bit to 1 in j
8:
else if r 2 [↵ + , ↵ + + ) then
9:
i = i + 2k 1 t
// Set bit to 1 in i
10:
else if r 2 [↵ + + , 1) then
11:
i = i + 2k 1 t and j = j + 2k 1 t
// Set bit to 1 in i and j
12:
end if
13:
end for
14:
aij = aij + 1
15: end for
16: Replace all nonzero entries in A with ones
Beispiel: Siehe Tafel!
2.3
18
Preliminaries
Henning Meyerhenke, Institut für Theoretische Informatik
WeAlgorithmische
now give a Methoden
number of
and basic lemmas
zurdefinitions
Netzwerkanalyse
Modelle für (Zufalls)Graphen
necessary for our analysis of graphsR-MAT-Graphen
Kanten und Grade
Lemma (Kantenwkt., (Groër et al.))
Die Wkt., eine Kante e = (u , v ) in einer Iteration zu generieren, ist
p (e ) = p (u , v ) = aea beb c ec d ed .
Hierfür gilt, dass bei der Generierung ea mal Quadrant OL, eb mal OR
usw. gewählt wurde.
Theorem (Knotengrade (Groër et al.))
Sei u ein Knoten im Graphen G 0 , der aus G durch Entfernung von
Duplikaten hervorgegangen ist.
G wurde als R-MAT-Graph mit N = 2n Knoten und M = O (N ) erzeugt.
Dann gilt bei N , M → ∞ für fast alle Knoten u:
dG+0 (u ), dG−0 (u ) und dG0 (u ) sind asymptotisch normalverteilt.
19
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
R-MAT-Graphen
Diskussion
Frage: Was kommt raus, wenn 1/4 = a = b = c = d?
Mehrfachkanten treten auf, nicht immer gewollt! Vermeidung oft nicht
praktikabel
Neue experimentelle Auswertungen:
Community-Struktur nicht so stark ausgeprägt wie gewünscht
Zahl der Dreiecke unterdurchschnittlich
Frage: Warum?
Ausblick: Andere Modelle
20
Henning Meyerhenke, Institut für Theoretische Informatik
Algorithmische Methoden zur Netzwerkanalyse
Modelle für (Zufalls)Graphen
R-MAT-Graphen
Herunterladen