Mehr über Potenzgesetze Kontinuierliche Variante: Definition 2.6: (Kont.) Potenzgesetz-Verteilung Seien β, b > 0. Zufallsvariable X ∈ R hat (kont.) Potenzgesetz-Verteilung, falls für alle x ≥ b β b . Pr{X > x} = x Verteilungsfunktion: β b . F (x) = Pr{X ≤ x} = 1 − x Dichte: d βbβ c f (x) = F (x) = 1+β = α mit c := βbβ , α := 1 + β. dx x x 34 Mehr über Potenzgesetze (Forts.) Momente: Sei X gemäß Dichte f (x) = c/x 1+β verteilt, m ∈ N: Z ∞ Z ∞ m m E(X ) = x f (x)dx = cx m−β−1 dx b = b ∞ c m−β ·x . m−β b Nur endlich, falls m ≤ β. Fall β < 1: Erwartungswert und Varianz unendlich. Fall β < 2: Erwartungswert endlich, Varianz unendlich. 35 Mehr über Potenzgesetze (Forts.) Normalverteilung: • Konzentration um Erwartungswert. • Exponentiell abfallender Auslauf (tail) der Dichtefunktion. Potenzgesetz-Verteilung: • Große Varianz. • Polynomiell abfallender Auslauf der Dichtefunktion (heavy-tailed distribution). 36 Mehr über Potenzgesetze (Forts.) Skaleninvarianz-Eigenschaft: Sei f (x) = c/x α . Für Konstanten a: f (ax) = 1 1 c · α = α · f (x). α a x a Änderung des x-Achsen-Maßstabs → • Änderung des y -Achsen-Maßstabs; • Form der Funktion bleibt erhalten. Während z. B. für Exponentialverteilung: Dichte f (x) = λe−λx , f (ax) = λe−λax . 37 Zusammenfassung Abschnitt 2.2: Eigenschaften des Webgraphen: • High-Level-Sichtweise: Fliegenstruktur“. ” • Kleiner durchschnittlicher Durchmesser. • Webgemeinden ↔ (vollständige) bipartite Teilgraphen. • Potenzgesetz für Eingangsgrad. Potenzgesetz-Verteilungen: • Linear im Log-Log-Plot. • Hohe Varianz, heavy-tailed, Skaleninvarianz. • Normale“ Verteilung für viele natürliche Phänomene. ” 38 2.3 Modelle Wozu überhaupt? • Test von Algorithmen; • Vorhersage zukünftiger Entwicklung; • besseres Verständnis beobachteter Phänome. Anforderungen an Modelle: • Dynamische Entwicklung; • Potenzgesetze, z. B. für Eingangsgrad; • kleiner durchschnittlicher Durchmesser; • Clusterbildung, insbesondere viele Ki,j -Kopien. 39 2.3.1 Der Klassiker: Das ER-Modell • Grundlegende Arbeit: Erdős, Rényi (1960). • Das Modell für zufällige Graphen schlechthin. Definition 2.7: Zufälliger gerichteter Graph G(n, p), p ∈ [0, 1]: • Erzeuge n isolierte Knoten. Knotenmenge V = {1, . . . , n}. • Für alle (v , w ) ∈ V × V : Mit Wahrscheinlichkeit p: Füge (v , w ) zu E hinzu. Alle Entscheidungen unabhängig voneinander. Nenne p Kantendichte. Bemerkungen: • Oft Verhalten für n → ∞. • In der Literatur: Ungerichtete Version verbreiteter. 40 Wahl von p für Webgraphen? • Für Modelle verbreitete Annahme / Eigenschaft: (Erwartete) lineare Kantenanzahl oder sogar konstanter Ausgangsgrad. • Dann passender Wert: p = p(n) = c/n, c > 0 Konstante, E(# Anzahl Kanten) = p · n2 = cn. Plausibel, aber kaum experimentell untersucht. Muss zeitliche Entwicklung des Webgraphen verfolgen. Leskovec, Kleinberg, Faloutsos (2006): Evtl. falsch: Für einige reale Graphen |E| ≈ cnα mit α > 1! Z. B. AS-Graph, AS: Autonome Systeme. 41 Gradverteilung für ER-Modell: Proposition 2.8: Für G(n, p) gilt: • Für alle Knoten v , k ∈ {0, . . . , n − 1}: Pr{indeg(v ) = k } = n−1 k p (1 − p)n−1−k k = B(n − 1, p)(k ). (Binomialverteilung mit Parametern n − 1, p). • Sei Nk ,n := # Knoten mit Eingangsgrad k . Dann: E(Nk ,n ) = n · B(n − 1, p)(k ). 42 Satz 2.9: Chernoff-Schranken. X1 , . . . , Xt unabhängige 0-1-Zufallsvariablen, X := X1 + · · · + Xt , 0 ≤ δ ≤ 1, dann gilt: Pr{X ≤ (1 − δ)EX } ≤ e−δ Pr{X ≥ (1 + δ)EX } ≤ e 2 EX /2 −δ2 EX /3 und . Referenz: Hagerup, Rüb, A guided tour of Chernoff bounds“. ” Information Processing Letters 33:305–308, 1989. 43 Anwendung hier: Xv ,w := [Kante (v , w ) existiert]. X Xv ,w , D := indeg(v ) = w 6=v ED = (n − 1)p. Chernoff-Schranken (Unabhängigkeit der Xv ,w ) ⇒ Pr{D ≥ ED + k } δ:=k /ED ≤ 2 ED/3 e−(k /ED) = e−k 2 /(3(n−1)p) . 2 Damit: Für p = c/n rechte Seite ≈ e−k /3c . Exponentiell abfallender Auslauf (exponential tail). 44 Allgemeiner & genauer: n→∞ Falls np → λ, λ > 0 Konstante bez. n: n→∞ Pr{indeg(v ) = k } → e−λ λk /k ! = P(λ) (Poisson-Verteilung mit Erwartungswert λ) und n→∞ E(Nk ,n /n) → P(λ). • Eingangsgrade für gewünschte Kantendichte approximativ poissonverteilt, exponentiell fallender Auslauf. • Weit entfernt von Potenzgesetz-Verteilung! : – ( 45 Proposition 2.10: Sei p = c/n für eine Konstante c > 0 bez. n. Seien i, j ≥ 2 Konstanten bezüglich n. Dann konv. die erwartete Anzahl Ki,j in G(n, p) für n → ∞ gegen eine Konstante. Beweis: • Wähle V , W ⊆ {1, . . . , n} mit |V | = i, |W | = j, V ∩ W = ∅. Wskt. für bipartite Clique V × W : p i·j . • Anzahl Wahlen solcher V , W : n n−i . j i • Damit Erwartungswert: n i+j c i·j n n−i p i·j ≤ j i i! · j! n i·j≥i+j = O(1). 46 Klassische“ Ergebnisse zu zufälligen Graphen für ” ungerichtete Variante des G(n, p)-Modells, p = c/n: • Fast sicher, d. h. mit für n → ∞ gegen 1 konv. Wskt.: Durchmesser O(log n) (Chung, Lu 2001). • Schwellwert-Theoreme, z. B. giant component “: ” p = c1 /n, c1 < 1: Fast sicher Größe von max. ZK O(log n). p = c2 /n, c2 > 1: Fast sicher Größe von max. ZK Θ(n). (Erdős, Rényi 1960.) Für gerichteten Fall Schwellwert-Theorem analog zu obigem für größte starke ZK (MAXSCC) (Karp 1990). Kleiner Durchmesser gut, aber der Rest? 47 Fazit für ER-Modell: • Eigenschaften ungeeignet für Webgraphen. Problem: Unabhängigkeit der Kantenwahlen • Weiterer Nachteil: Knotenanzahl fest, keine Dynamik. 48 2.3.2 Preferential Attachment Arbeiten: Barabási-Albert (1999), Bollobás u. a. (2001). BA-Modell: • Schritt t = 1 (Initialisierung): Knoten mit zwei Schleifen. • Schritt t > 1: – Erzeuge neuen Knoten u mit einer Schleife. – Füge Kante (u, v ) hinzu, v zufällig: d . w indeg(w ) Pr{Knoten v | indeg(v ) = d} = P Bevorzugt bereits gut verbundene Knoten ( the rich get richer“ / the winner takes it all“). ” ” 49 Beispiel für n = 32: 50 Bisher Ausgangsgrad 1, falls Schleifen ignoriert. Erzeugung von Ausgangsgrad d (ohne Schleifen): Identifiziere jeweils d Knoten von aufeinanderfolgenden Schritten. Nk ,t := # Knoten mit Eingangsgrad k nach Schritt t. Satz 2.11 (Bollobás und Riordan 2004): Für d ≥ 1 gibt es ein cd > 0 sodass für 0 ≤ k ≤ t 1/15 t→∞ cd E(Nk ,t /t) → 3 . k Für beliebige ε > 0 und mit für t → ∞ gegen 1 konv. Wskt. hat Nk ,t höchstens Abstand ε von E(Nk ,t ). Also Potenzgesetz-Verteilung mit Exponent α = 3 . 51 Beweis hier nicht, aber heuristisches Argument aus Barabási-Albert-Arbeit (Fall d = 1). Idee: Schrittweise Gradzuwächse aufaddieren. Di (t) := Eingangsgrad von Knoten i nach Schritt t; Di∗ (t + 1) := Eingangsgrad von Knoten i in Schritt t + 1 vor Einfügen der (t + 1)-ten zufälligen Kante. Dann für alle i ≤ t: Di (t) = Di∗ (t + 1). Betrachte Einfügen der neuen Kante in Schritt t. Gesamteingangsgrad: 2(t − 1) + 1 = 2t − 1. Damit für Knoten i ≤ t: k . Pr{Di∗ (t + 1) − Di∗ (t) = 1 | Di∗ (t) = k ) = 2t − 1 Unschön: Abhängigkeit von zufälligem Di∗ (t). 52 Neue (heuristische) Idee ( Mean-field theory“): ” Zufälliger Gradzuwachs → Erwartungswert für Zuwachs. Erwartungswerte: E Di∗ (t + 1) − Di∗ (t) | Di∗ (t) = k ∗ E Dt+1 (t + 1)) = 1. = k ; 2t − 1 Zeit t ∈ R, Di∗ (t + 1) → reellwertige Funktion di (t) (nicht zufällig) mit di (t) di (t) d di (t) = ≈ . dt 2t − 1 2t 53 Kontinuierliche Variante des BA-Modells: Für einzelnen Knoten: • Knoten wird zum Zeitpunkt t0 ∈ [0, t+1] erzeugt. • Gradzuwachs des Knotens nicht zufällig, sondern beschrieben durch feste Funktion d : R → R mit d d(t) (1) d(t) = ; dt 2t (2) d(t0 ) = 1. Zusätzlich: Wähle Startzeitpunkt t0 gleichverteilt aus [0, t+1]. Dann d(t) = dt0 (t) zufälliger Knotengrad in Schritt t+1, vor Einfügen der neuen Kante. Ziel: Bestimme Pr{dt0 (t) ≤ k } (t0 Zufallsvariable)! 54 Lösen der Differenzialgleichung: d ′ (t) 1 = . Integrieren: d(t) 2t Z 1 1 ln d(t) = dt = ln t + c, also 2t 2 1/2 c d(t) = t · e . Anfangsbedingung liefert: 1/2 d(t0 ) = t0 −1/2 · ec = 1, also ec = t0 . Lösung damit: 1/2 t . d(t) = t0 55 Bestimmen der Gradverteilung: Pr{d(t) ≤ k } = Pr{(t/t0 )1/2 ≤ k } = Pr{t0 ≥ t/k 2 } = 1 − Pr{t0 < t/k 2 } Da t0 gleichverteilt über [0, t]: Pr{t0 < t/k 2 } = 1/k 2 . Also: Pr{d(t) ≤ k } = 1 − 1/k 2 . Verteilungsfunktion → Dichte: Dazu nach k ableiten. d Pr{d(t) ≤ k } = 2/k 3 . dk Also wie im diskreten Fall Potenzgesetz mit Exponent 3. 56