PageRank: Der Google-Ranking-Algorithmus Ordnung einer Menge verlinkter Dokumenten auf der Basis der Verlinkungsstruktur Anhang: Mathematische Definitionen Arbeitsnotizen – keine augearbeitete Präsentation Karin Haenelt 13.10.2013 Inhalt PageRank-Modellierungskomponenten: Hyperlink-Matrix und PageRank-Vektor Mathematische Betrachtungsvarianten Vorausgesetzte Grundbegriffe Lineare Algebra Stochastik © Karin Haenelt, PageRank, 13.10.2013 2 PageRank – Modellierungskomponenten 1. Darstellung des Graphen als Hyperlink-Matrix Hyperlinkmatrix H von A von B von C A B C H= zu A zu B 0 1/ 2 0 0 1 0 zu C 1/ 2 1 0 N x N Spaltenmatrix mit Gewichten für die Links Wie werden die Gewichte der Links bestimmt? eine Möglichkeit: © Karin Haenelt, PageRank, 13.10.2013 1 / n j hij = 0 falls j auf i verlinkt sonst 3 PageRank – Modellierungskomponenten 2. PageRank-Vektor Der PageRank-Vektor enthält die PageRank-Werte der einzelnen Webseiten pr ( A) pr = pr ( B ) pr (C ) wird aus der Hyperlink-Matrix berechnet © Karin Haenelt, PageRank, 13.10.2013 4 Inhalt PageRank-Modellierungskomponenten: Hyperlink-Matrix und PageRank-Vektor Mathematische Betrachtungsvarianten © Karin Haenelt, PageRank, 13.10.2013 5 Notation A, B, C i,j ni N H S r pr(A) oder pr(i) p[i] pn P p0[i] p∞[i] Webseiten Repräsentation von Knoten im Web bzw. von Webseiten, und entsprechende Matrixindizes Grad von i, d.h. Anzahl der ausgehenden Kanten von i Gesamtzahl der betrachteten Webseiten Hyperlinkmatrix (gewichtet) stochastische ergodische Hyperlinkmatrix Vektor des Ranges aller Webseiten PageRank von Seite A bzw. Knoten i - algebraische Sicht - stochastische Sicht n-te Approximation an p Wahrscheinlichkeit Wahrscheinlichkeit, dass Zufallssurfende am Knoten i beginnen zu surfen (Startwahrscheinlichkeit) Wahrscheinlichkeit, dass Zufallssurfende nach unendlich vielen Schritten am Knoten i sind ; stationäre Verteilung (steady state probability), stochastische Sicht des PageRanks Konstante im Intervall [0,1] © Karin Haenelt, PageRank, 13.10.2013 6 Wie berechnet man aus der Matrix den PageRank-Vektor? Mathematische Betrachtungsvarianten Matrix PageRank-Vektor Lineares Gleichungssystem Koeffizientenmatrix Lösungsvektor eines linearen Gleichungssystems des linearen Gleichungssystems Lineare Abbildung Abbildungsmatrix Markov-Prozess Übergangsmatrix eines Markov-Prozesses © Karin Haenelt, PageRank, 13.10.2013 pr (i ) = ∑ { j| j →i } pr ( j ) nj Fixvektor der Abbildungsmatrix x = Ax Grenzvektor p ∞ = lim S n p0 n →∞ 7 Wie berechnet man aus der Matrix den PageRank-Vektor? Mathematische Betrachtungsvarianten: Lineare Algebra Perspektive: Lineares Gleichungssystem (Lineare Algebra 1) Betrachtung der Matrix als Koeffizientenmatrix eines linearen Gleichungssystems PageRank-Vektor ist der Lösungsvektor des Gleichungssystems pr (i ) = pr ( j ) ∑ { j| j →i } n j Perspektive: Lineare Abbildung (Lineare Algebra 2) Betrachtung der Matrix als Abbildungsmatrix eines Vektorraumes in einen anderen Vektorraum PageRank-Vektor ist der Fixvektor x = A x der Abbildungsmatrix © Karin Haenelt, PageRank, 13.10.2013 8 Wie berechnet man aus der Matrix den PageRank-Vektor? Mathematische Betrachtungsvarianten: Stochastik Perspektive: Markov-Prozess (Stochastik) Betrachtung der Matrix als Beschreibung eines Markov-Prozesses S n p0 PageRank-Vektor entspricht dem Grenzvektor p∞ = lim n →∞ (Grenzvektor der Wahrscheinlichkeiten der einzelnen Zustände, dem sich der durch die stochastische Matrix beschriebene Markov-Prozess nähert) © Karin Haenelt, PageRank, 13.10.2013 9 M Vorausgesetzte Grundbegriffe Lineare Algebra (und analytische Geometrie) Vektorraum, Vektor, Matrix Lineare Gleichungssysteme Lineare Abbildungen Eigenwerte, Eigenvektoren Stochastik Ereignisraum Wahrscheinlichkeitsmaß stochastische Matrix Markov-Kette ergodische Markov-Kette (irreduzibel und aperiodisch) © Karin Haenelt, PageRank, 13.10.2013 10 M Perspektive: Lineare Algebra vorausgesetzte Definition: Vektorraum Definition: ein Vektorraum V über einem Körper K ist eine Menge V mit zwei Verknüpfungen der Form + und K × V V ×V → V →V ( v , w) ֏ v + w ( c, v ) ֏ cv die man Addition (+) und Skalarmultiplikation (⋅) nennt, und für die folgende Axiome gelten: Artin 1998, 95/96 © Karin Haenelt, PageRank, 13.10.2013 11 M Perspektive: Lineare Algebra vorausgesetzte Definition: Vektorraum Definition (Fortsetzung) 1. Bezüglich der Addition bildet V eine Abelsche Gruppe 1. Abgeschlossenheit v + w ∊ V, für alle v,w ∊ V 2. Assoziativität (v+w)+u = v+(w+u) , für alle u,v,w ∊ V 3. Neutrales Element e es gibt ein neutrales Element e: v+e = v, für e ∊ V und alle v ∊ V (hier: e ist der Nullvektor ) 4. Inverses Element i es gibt ein inverses Element i: v + i = i + v = e, für alle v ∊ V 5. Kommutativität v+w = w+v , für alle v,w ∊ V Artin 1998, 95/96 © Karin Haenelt, PageRank, 13.10.2013 12 M Perspektive: Lineare Algebra vorausgesetzte Definition: Vektorraum Definition (Fortsetzung): 2. Die Skalarmultiplikation ist assoziativ mit der Multiplikation in K: (ab)v = a(bv) für alle a, b ∊ K, v ∊ V 3. Die Skalarmultiplikation mit der reellen Zahl 1 wirkt als identische Abbildung auf V: 1v = v, für alle v ∊ V 4. Es gelten zwei Distributivgesetze (a+b)v = av+bv a(v+w) = av + aw für alle a, b ∊ K, v,w ∊ V und Artin 1998, 95/96 © Karin Haenelt, PageRank, 13.10.2013 13 M Perspektive: Lineare Algebra Beispiel: Geometrische Auffassung eines Vektorraumes geometrische Auffassung eines Vektorraumes, Beispiel ℝ2 ℝ2 (Menge aller Paare reeller Zahlen) als Modell einer Ebene E auffassen, indem man in E einen Nullpunkt und ein Koordinatensystem mit den Achsen x und y auszeichnet einem Punkt P ∊ E ordnet man das Paar (x1,y1) ∊ ℝ2 zu Bosch, 2006:51 © Karin Haenelt, PageRank, 13.10.2013 14 M Perspektive: Lineare Algebra vorausgesetzte Definitionen: Vektor, Matrix Definition: Elemente eines Vektorraums werden auch als Vektoren bezeichnet Definition: Es sei K ein Körper. Zu m, n ∊ ℕ betrachte man ein System (λij )i =1,...,m j =1,...,n λ11 ... λ1n = . ... . λ m1 ... λmn von Elementen aus K; man spricht von einer Matrix Bosch 2006: 26 (Vektor), 81 (Matrix) © Karin Haenelt, PageRank, 13.10.2013 15 M Vorausgesetzte Grundbegriffe Lineare Algebra (und analytische Geometrie) Vektorraum, Vektor, Matrix Lineare Gleichungssysteme Lineare Abbildungen Eigenwerte, Eigenvektoren Stochastik Ereignisraum Wahrscheinlichkeitsmaß stochastische Matrix Markov-Kette ergodische Markov-Kette (irreduzibel und aperiodisch) © Karin Haenelt, PageRank, 13.10.2013 16 M Perspektive: Lineare Algebra Definition: Lineare Gleichung Definition: Eine lineare Kombination von x1, …, xn hat die Form a1x1 + a2x2 + a3x3 + … + anxn wobei a1, …, an ∊ ℝ die Koeffizienten der Kombination sind. Definition: Eine lineare Gleichung mit x1, …, xn hat die Form a1x1 + a2x2 + a3x3 + … + anxn = d wobei d ∊ ℝ eine Konstante ist. Definition: Ein n-Tupel (s1, s2, …, sn) ist eine Lösung einer linearen Gleichung, oder erfüllt eine lineare Gleichung, wenn die Einsetzung der Zahlen s1, s2, …, sn für die Variablen eine wahre Aussage ergibt: a1s1 + a2s2 + a3s3 + … + ansn = d Hefferon, 2012, 2 © Karin Haenelt, PageRank, 13.10.2013 17 M Perspektive: Lineare Algebra 1 Definition: Lineares Gleichungssystem Definition: Ein lineares Gleichungssystem ist eine Menge von linearen Gleichungen, die gleichzeitig erfüllt sein müssen. Definition: Ein lineares Gleichungssystem a1,1x1 + a1,2x2 + a1,3x3 + … + a1,nxn = d1 a2,1x1 + a2,2x2 + a2,3x3 + … + a2,nxn = d2 . . am,1x1 + am,2x2 + am,3x3 + … + am,nxn = dm hat die Lösung (s1, s2, …, sn), wenn dieses n-Tupel eine Lösung aller Gleichungen des Systems ist. Hefferon, 2012, 2 © Karin Haenelt, PageRank, 13.10.2013 18 Perspektive: Lineares Gleichungssystem Matrix als Koeffizientenmatrix, Page Rank als Lösungsvektor Matrixnotation des Gleichungssystems ⋅ x = b H 0 0 1 pr1 pr1 1 / 2 0 0 ⋅ pr2 = pr2 1 / 2 1 0 pr3 pr3 → die Verlinkungsmatrix entspricht einer Koeffizientenmatrix (hier: H) → der PageRank-Vektor entspricht dem Lösungsvektor (hier: b) eines linearen Gleichungssystems Direkte Notation des Gleichungssystems entsprechendes homogenes b H ⋅x Gleichungssystem pr1 = 0 ⋅ pr1 + 0 ⋅ pr2 + 1 ⋅ pr3 pr1 = pr3 pr2 = 1 2 pr1 + 0 ⋅ pr2 + 0 ⋅ pr3 pr2 = 1 2 pr1 pr3 = 1 2 pr1 + 1 ⋅ pr2 + 0 ⋅ pr3 pr3 = 1 2 pr1 + pr2 © Karin Haenelt, PageRank, 13.10.2013 − pr1 1 2 pr1 − 1 2 pr1 + pr2 pr2 − pr3 = 0 pr3 = 0 = 0 19 Perspektive: Lineares Gleichungssystem Lösungsverfahren für lineare Gleichungssysteme „Direkte Verfahren sind solche, die nach endlich vielen Rechenschritten die (bis auf Rundungsfehler) exakte Lösung des Gleichungssystems liefern.“ bekannte Methode: Gaußsches Eliminationsverfahren „Bei der iterativen Lösung berechnet man ausgehend von einem beliebigen Startvektor x0 eine Folge von Iterierten xm für m = 1, 2, . . .: x 0 ֏ x1 ֏ x 2 ֏ ... ֏ x m ֏ x m+1 ֏ ... Im Folgenden ist xm+1 nur von xm abhängig, so dass die Abbildung x m ֏ x m+1 das Iterationsverfahren bestimmt. Die Wahl des Startwertes x0 ist nicht Teil des Verfahrens.“ bekannte Methode: Gauß-Seidel-Verfahren Hackbusch, 2004: 8/9 © Karin Haenelt, PageRank, 13.10.2013 20 Perspektive: Lineares Gleichungssystem Lösung des Gleichungssystems mit Gauß-Elimination − pr1 Gleichungssystem 1 2 pr1 − 1 2 pr1 + Umformung 1 ρ ρ1 − 1 2 ρ1 + ρ 2 : − 1 2 ρ1 + ρ 3 : pr2 pr2 − − pr:1 − pr2 pr2 pr3 = 0 pr3 = 0 = 0 pr3 + 1 2 pr3 − 1 2 pr3 = 0 = 0 = 0 Reihe des Gleichungssystems Umformung 2 © Karin Haenelt, PageRank, 13.10.2013 pr1 pr2 = pr3 = 1 2 pr3 21 Perspektive: Lineares Gleichungssystem Lösung des Gleichungssystems mit Gauß-Elimination pr1 pr2 = pr3 = 1 2 pr3 Lösungsmenge pr1 1 pr 1 2 pr | pr = ∈ ℜ 2 3 3 pr 1 3 nicht-triviale (d.h. Nicht-Null) Lösung z.B.: pr1 = 2, pr2 = 1, pr3 = 2 jedes Vielfache dieser Lösung ist ebenfalls eine Lösung N pr1 0.4 Normierung aus PageRankpri = 1 ∑ Anwendungssicht1) pr2 = 0.2 Vektor pr i =1 pr 0.4 ergibt eindeutige Lösung 3 1) Die PageRank-Werte bilden eine Wahrscheinlichkeitsverteilung über die Webseiten, so dass die Summe der PageRank-Werte über alle Webseiten gleich 1 ist (Page, 2001: 4) © Karin Haenelt, PageRank, 13.10.2013 22 Perspektive: Lineares Gleichungssystem Lösung des Gleichungssystems mit Gauß-Elimination Komplexität des Eliminationsverfahrens nach Gauß „Im allgemeinen Fall benötigt die Gauß-Elimination für die Lösung eines Gleichungssystems Ax = b mit n Unbekannten 2n3/3 + O(n2) Operationen. Der Speicherbedarf beträgt n2 + n.“ (Hackbusch, 2004: 8) dabei wurden folgende Operationen gezählt: Addition, Subtraktion, Multiplikation, Division → nur für sehr kleine Matrizen möglich © Karin Haenelt, PageRank, 13.10.2013 23 M Vorausgesetzte Grundbegriffe Lineare Algebra (und analytische Geometrie) Vektorraum, Vektor, Matrix Lineare Gleichungssysteme Lineare Abbildungen Eigenwerte, Eigenvektoren Stochastik Ereignisraum Wahrscheinlichkeitsmaß stochastische Matrix Markov-Kette ergodische Markov-Kette (irreduzibel und aperiodisch) © Karin Haenelt, PageRank, 13.10.2013 24 M Perspektive: Lineare Algebra vorausgesetzte Definition: Lineare Abbildung Definition: Es sei K ein Körper. Eine Abbildung f eines Vektorraumes V in einen Vektorraum W heißt lineare Abbildung von V nach W, wenn die folgenden Gleichungen für alle v1, v2 ∊ V und alle a ∊ K gelten: f(v1 + v2) = f(v1) + f(v2) f(av) = af(v) © Karin Haenelt, PageRank, 13.10.2013 25 Perspektive: Lineare Algebra Geometrisches Beispiel einer linearen Abbildung und Abbildungsmatrix M zulässige Operationen gemäß Definition linearer Abbildungen: Addition und skalare Multiplikation Beispiel: Dehnung: Kreis → Ellipse (mit Erhaltung des Mittelpunkts) → Multiplikation der Komponenten der Vektoren X = (x,y) (Punkte des Kreises) mit den Skalaren µ bzw. ν, also µx und νy Beschreibung der Abbildung durch eine Matrix (Abbildungsmatrix) µ 0 X → ⋅ X 0 ν X → AX Die Matrix erfasst die Art der „Dehnung“ beider Dimensionen Kunze, 2013: 1/2 © Karin Haenelt, PageRank, 13.10.2013 26 M Vorausgesetzte Grundbegriffe Lineare Algebra (und analytische Geometrie) Vektorraum, Vektor, Matrix Lineare Gleichungssysteme Lineare Abbildungen Eigenwerte, Eigenvektoren Stochastik Ereignisraum Wahrscheinlichkeitsmaß stochastische Matrix Markov-Kette ergodische Markov-Kette (irreduzibel und aperiodisch) © Karin Haenelt, PageRank, 13.10.2013 27 M Perspektive: Lineare Algebra: Eigenwert und Eigenvektor Da es sich um lineare Operationen handelt, kann man bei der Matrix einen Faktor λ ausklammern, indem man alle Elemente der Matrix durch λ dividiert. Dasselbe ist mit Vektoren möglich. Damit entsteht eine Variationsmöglichkeit für die Abbildung X → A X eine Zahl λ heißt Eigenwert einer Matrix A, genau dann, wenn die Gleichung AX = λ X nichttriviale (d.h. vom Nullvektor verschiedene) Lösungen besitzt Diese Lösungen heißen die zu λ gehörigen Eigenvektoren von A. Kunze, 2013: 1/2 © Karin Haenelt, PageRank, 13.10.2013 28 M Perspektive: Lineare Algebra Definition: Eigenwert und Eigenvektor Definition: Es sei f: V → V ein Endomorphismus eines KVektorraumes V. Eine Konstante λ ∊ K heißt Eigenwert zu f, wenn es einen Vektor a ∊ V – {0} mit f(a) = λa gibt. Man nennt in diesem Falle a einen Eigenvektor von f zum Eigenwert λ. Für eine Matrix A ∊ Knxn seien Eigenwerte und Eigenvektoren erklärt als Eigenwerte und Eigenvektoren der zugehörigen linearen Abbildung Kn → Kn, x ↦ Ax Bosch, 2006:194 © Karin Haenelt, PageRank, 13.10.2013 29 M Perspektive: Lineare Algebra Beispiel: Eigenwert und Eigenvektor A x 0 0 1 1 / 2 0 0 1 / 2 1 0 2 / 5 1 / 5 2 / 5 ⋅ = = λ x 1 2 / 5 1 / 5 2 / 5 ⋅ ein Eigenwert der Matrix A λ=1 Abbildungsmatrix A Eigenvektor von A zum Eigenwert λ = 1 Vektor x ≠ 0, der durch f: V → V auf ein Vielfaches λx von sich selbst abgebildet wird (d.h. nur gestreckt, nicht gedreht wird) © Karin Haenelt, PageRank, 13.10.2013 30 M Perspektive: Lineare Algebra Fixvektor A x = λ x 0 0 1 2 / 5 2 / 5 1 / 2 0 0 ⋅ 1 / 5 = 1 ⋅ 1 / 5 1 / 2 1 0 2 / 5 2 / 5 wählt man λ = 1, so sind die Eigenvektoren gerade die Fixelemente der durch x → Ax definierten Funktion f: Es sind diejenigen Vektoren, die durch f in sich selbst überführt werden Diese Eigenvektoren heißen auch Fixvektoren von A. Kunze, 2013 © Karin Haenelt, PageRank, 13.10.2013 31 M Perspektive: Lineare Algebra Darstellung des homogenen linearen Gleichungssystems in der für Fixvektoren charakteristischen Form Ax = λx mit λ=1 Homogene Gleichungen der Gestalt a1 x1 + a2 x2 + ... + an xn = 0 lassen sich auch in der für Eigenvektoren charakteristischen Form schreiben: Ax = λx das gilt aber nur für λ = 1; wäre λ variabel, so könnte man die Gleichungsform mit konstanten Koeffizienten ai nicht erreichen Kunze, 2013 © Karin Haenelt, PageRank, 13.10.2013 32 Perspektive: Lineare Algebra Darstellung des homogenen linearen Gleichungssystems in der für Fixvektoren charakteristischen Form Ax = λx mit λ=1 A x = λx 0 0 1 2 / 5 2 / 5 1 / 2 0 0 ⋅ 1 / 5 = 1 / 5 1 / 2 1 0 2 / 5 2 / 5 A x = λx 0 0 1 pr1 pr1 1 / 2 0 0 ⋅ pr2 = pr2 1 / 2 1 0 pr pr 3 3 → der PageRank-Vektor entspricht dem Fixvektor der Verlinkungsmatrix © Karin Haenelt, PageRank, 13.10.2013 33 M Vorausgesetzte Grundbegriffe Lineare Algebra (und analytische Geometrie) Vektorraum, Vektor, Matrix Lineare Gleichungssysteme Lineare Abbildungen Eigenwerte, Eigenvektoren Stochastik Ereignisraum Wahrscheinlichkeitsmaß stochastische Matrix Markov-Kette ergodische Markov-Kette (irreduzibel und aperiodisch) © Karin Haenelt, PageRank, 13.10.2013 34 M Perspektive: Stochastik Definition: Markov-Kette Einführung Eine Markov-Kette ist eine Folge von Zufallsvariablen mit kurzem Gedächtnis; das Verhalten zum jeweils nächsten Zeitpunkt hängt nur vom jeweils aktuellen Wert ab und nicht davon, welche Werte vorher angenommen wurden. Von besonderem Interesse ist das Langzeit-Verhalten solch einer Folge – z.B. Absorption in einer „Falle“ oder Konvergenz ins Gleichgewicht Georgii, 2009:153 © Karin Haenelt, PageRank, 13.10.2013 35 M Perspektive: Stochastik Definition: Markov-Kette - vorausgesetzte Definitionen im Folgenden wird Ω als eine höchstens abzählbare Menge vorausgesetzt. P(Ω) ist die Potenzmenge von Ω, also die Menge aller Teilmengen von Ω Definition: Sei Ω≠∅. Ein System F⊂P(Ω) mit den Eigenschaften a) Ω ∊ F b) A ∊F ⇒ Ac := Ω \ A ∊F (“logische Verneinung“) c) A1, A2, … ∊F ⇒ ∪i≧1 Ai ∊F (“logisches Oder“) heißt eine σ-Algebra in Ω. Das Paar (Ω,F) heißt dann ein Ereignisraum oder ein messbarer Raum. Ist Ω als höchstens abzählbar, dann setzt man F = P(Ω) vgl. Georgii, 2009:10, 13 © Karin Haenelt, PageRank, 13.10.2013 36 M Perspektive: Stochastik Definition: Markov-Kette - vorausgesetzte Definitionen Definition: Sei (Ω,F) ein Ereignisraum. Eine Funktion P: F→ [0,1] mit den Eigenschaften Normierung: P(Ω) = 1 σ-Addititvität: Für paarweise disjunkte Ereignisse A1, A2, … ∊F (i.e. Ai ∩ Aj = ∅ für i ≠ j ) gilt P(∪i ≥1 Ai ) = ∑i ≥1 P( Ai ) heißt Wahrscheinlichkeitsmaß oder auch Wahrscheinlichkeitsverteilung, kurz Verteilung auf (Ω,F) . Das Tripel (Ω,F,P) heißt dann Wahrscheinlichkeitsraum. Georgii, 2009:13 © Karin Haenelt, PageRank, 13.10.2013 37 M Perspektive: Stochastik Definition: Markov-Kette - vorausgesetzte Definitionen Definition: Ist Ω eine abzählbare Menge, so heißt eine Folge ρ=(ρ(ω))ω∊Ω in [0,1] mit Σω∊Ω ρ(ω) = 1 eine Zähldichte auf Ω. Erläuterung: ρ ist ein Vektor mit Wahrscheinlichkeitswerten ρ(ω) ∊ für die Variable ω∊Ω Definition: Ist E≠∅ eine höchstens abzählbare Menge, und П = (П(x,y))x,y∊Ω eine Matrix, in der jede Zeile П(x,⋅) eine Zähldichte auf E ist, dann heißt П eine stochastische Matrix vgl. Georgii, 2009:18 und 153 © Karin Haenelt, PageRank, 13.10.2013 38 M Perspektive: Stochastik Definition: Markov-Kette Sei E≠∅ eine höchstens abzählbare Menge und П eine stochastische Matrix. Definition: Eine Folge X0, X1, … von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F,P) mit Werten in E heißt (nach A.A. Markov, 1856-1922) eine Markov-Kette mit Zustandsraum E und Übergangsmatrix П, wenn für alle n ≧ 0 und alle x0, …, xn+1 ∊ E gilt: P(Xn+1 = xn+1 | X0=x0, …, Xn = xn) = П(xn, xn+1) sofern P(X0=x0, …, Xn = xn) > 0. Die Verteilung α = P • X0-1 heißt die Startverteilung der Markov-Kette vgl. Georgii, 2009:153 © Karin Haenelt, PageRank, 13.10.2013 39 M Perspektive: Stochastik Definition: Markov-Kette Gleichung P(Xn+1 = xn+1 | X0=x0, …, Xn = xn) = П(xn, xn+1) besteht aus zwei Teilaussagen: Die bedingte Verteilung von Xn+1 bei bekannter Vorgeschichte x0,…,xn hängt nur von der Gegenwart xn ab und nicht von der Vergangenheit; diese so genannte Markov-Eigenschaft ist die entscheidende Annahme Diese bedingten Verteilungen hängen nicht vom Zeitpunkt n ab. Eine Markov-Kette (Xn)n≧0 ist ein stochastischer Prozess mit kurzem Gedächtnis von genau einer Zeiteinheit und ohne innere Uhr. Georgii, 2009:153/154 © Karin Haenelt, PageRank, 13.10.2013 40 M Perspektive: Stochastik Definition: Ergodensatz für Markov-Kette Für eine „kommunikative“ Markov-Kette pendelt sich die Verteilung nach langer Zeit bei einer invarianten Gleichgewichtsverteilung ein: Satz: Ergodensatz für Markov-Ketten. Sei E endlich, und es gebe ein k ≧ 0 mit Пk(x,y) > 0 für alle x,y ∊ E. Dann existiert für alle y ∊ E der Limes lim Π n ( x, y ) = α ( y ) > 0 n→∞ unabhängig von der Wahl des Startpunktes x ∊ E, und der Limes α ist die einzige Zähldichte auf E mit ∑α ( x)Π( x, y ) =α ( y ) für alle y ∈ E x∈E Anm.: Zustand i kommuniziert mit Zustand j, wenn die Markov-Kette eine positive Wahrscheinlichkeit besitzt, von Zustand i nach Zustand j zu gelangen. In ergodischen MK kommuniziert jeder Zustand mit jedem © Karin Haenelt, PageRank, 13.10.2013 Georgii, 2009:162 41 M Perspektive: Stochastik Definition: Stationäre Verteilung Bemerkung und Definition: Stationäre Verteilungen. Fasst man α als Zeilenvektor auf, so kann man die Gleichung ∑α ( x)Π( x, y ) =α ( y ) für alle y ∈ E x∈E αΠ = α schreiben; in der Form die Limesverteilung lim Π n ( x, y ) = α ( y ) > 0 n→∞ ist also ein linker Eigenvektor von П zum Eigenwert 1 1). Verwendet man solch ein α als Startverteilung, so ist die zugehörige Markov-Kette zeitlich invariant („stationär“) in dem Sinn, dass Pα (( Xn, Xn + 1,...) ∈ A) = Pα ( A) für alle A ∊ F = P(E)⊗ℤ+ und n ≧ 0. Eine Zähldichte α mit αП = α heißt deshalb eine stationäre (Start-)Verteilung. 1) Perron-Frobenius-Theorem © Karin Haenelt, PageRank, 13.10.2013 Georgii, 2009:162 42 M Perspektive: Stochastik Zusammenhang: ergodisch: irreduzibel und aperiodisch Definition: Eine Übergangsmatrix П heißt irreduzibel, wenn zu beliebigen x,y ∊ E ein k = k(x,y) ≧ 0 existiert mit Пk(x,y) > 0 Erläuterung: Irreduzibilität bedeutet: jeder Zustand kann von jedem anderen mit positiver Wahrscheinlichkeit in einer endlichen Anzahl von Schritten erreicht werden kann Definition: Eine Übergangsmatrix П heißt aperiodisch, wenn für ein (und daher alle) x ∊ E gilt: die Menge {k ≧ 1: Пk(x,x) > 0} hat den größten gemeinsamen Teiler 1. Erläuterung: Aperiodizität bedeutet: die Längen der Wege, auf denen ein Knoten x wieder erreicht werden kann, sind teilerfremd Eine stochastische Matrix П erfüllt genau dann die Voraussetzungen des Ergodensatzes, wenn П irreduzibel und aperiodisch ist. Georgii, 2009:171 (irreduzibel) und 185 © Karin Haenelt, PageRank, 13.10.2013 43 Verletzung der Konvergenzbedingungen Reduzible Matrix - Beispiel 1 reduzible Matrix: unabhängiger Teil: Knoten ohne ausgehende Kanten (dangling node) pr0 1 3 1 3 1 3 pr1 = S ⋅ pr0 0 0 0 1 3 0 0 0 0 ⋅ 1 3 = 0 1 1 0 1 / 3 2 / 3 A pr2 = H ⋅ pr1 B C 0 0 0 0 0 0 0 0 ⋅ 0 = 0 1 1 0 2 / 3 0 Formal: Prozess konvergiert gegen 0 Problem: PageRank sagt nichts über die relative Bedeutung der Webseiten aus nach Austin, 2006 © Karin Haenelt, PageRank, 13.10.2013 44 Verletzung der Konvergenzbedingungen Reduzible Matrix - Beispiel 2 reduzible Matrix: unabhängiger Teil: unabhängiger Teilgraph 1 3 5 7 p∞ H 0 1 / 2 2 4 6 8 1 / 2 0 Prozess konvergiert 0 für den unabhängigen 0 Teilgraphen gegen 0 0 0 0 0 0 0 0 1/ 2 1/ 3 0 0 0 0 0 1 0 0 0 0 1/ 2 1/ 3 0 0 0 1/ 3 1/ 3 0 0 0 1/ 3 0 0 0 1/ 3 0 0 0 0 0 0 0 0 0 0 0 0 0 1/ 2 0 0 0 1/ 2 0 0 1 / 2 1 1 / 2 0 0 0 0 0 0.12 0.24 0.24 0.12 Austin, 2006 © Karin Haenelt, PageRank, 13.10.2013 45 M Perspektive: Stochastik Beispiel: aperiodisch Пk(x,x) > 0, wenn es in der Matrix einen Weg von x nach x der Länge k gibt ein Zustand x ist dann aperiodisch, k = 1: П1(x,x) > 0: es gibt eine Schleife oder k ≧ 1: Пk(x,x) > 0: es gibt mindestens zwei Wege der Länge k1 und k2, und es gilt ggT(k1,k2) = 1 Beispiel A pAA1 Schritt = 0 B 2 Schritte pAA >0 pAA 3 Schritte > 0 C ggT {2,3} = 1 analog für B und C © Karin Haenelt, PageRank, 13.10.2013 46 Verletzung der Konvergenzbedingungen Reduzible Matrix - Beispiel 1 reduzible Matrix: unabhängiger Teil: Knoten ohne ausgehende Kanten (dangling node) pr0 1 3 1 3 1 3 pr1 = S ⋅ pr0 0 0 0 1 3 0 0 0 0 ⋅ 1 3 = 0 1 1 0 1 / 3 2 / 3 A pr2 = H ⋅ pr1 B C 0 0 0 0 0 0 0 0 ⋅ 0 = 0 1 1 0 2 / 3 0 Formal: Prozess konvergiert gegen 0 Problem: PageRank sagt nichts über die relative Bedeutung der Webseiten aus nach Austin, 2006 © Karin Haenelt, PageRank, 13.10.2013 47 Verletzung der Konvergenzbedingungen Reduzible Matrix - Beispiel 2 reduzible Matrix: unabhängiger Teil: unabhängiger Teilgraph 1 3 5 7 p∞ H 0 1 / 2 2 4 6 8 1 / 2 0 Prozess konvergiert 0 für den unabhängigen 0 Teilgraphen gegen 0 0 0 0 0 0 0 0 1/ 2 1/ 3 0 0 0 0 0 1 0 0 0 0 1/ 2 1/ 3 0 0 0 1/ 3 1/ 3 0 0 0 1/ 3 0 0 0 1/ 3 0 0 0 0 0 0 0 0 0 0 0 0 0 1/ 2 0 0 0 1/ 2 0 0 1 / 2 1 1 / 2 0 0 0 0 0 0.12 0.24 0.24 0.12 Austin, 2006 © Karin Haenelt, PageRank, 13.10.2013 48 M Stochastische Matrix Definition: aperiodisch Sei E eine höchstens abzählbare Menge und E ≠ ∅ Definition: Eine Übergangsmatrix П heißt aperiodisch, wenn für ein (und daher alle) x ∊ E gilt: die Menge {k ≧ 1: Пk(x,x) > 0} hat den größten gemeinsamen Teiler 1. Erläuterung: Aperiodizität bedeutet: die Längen der Wege, auf denen ein Knoten x wieder erreicht werden kann, sind teilerfremd Georgii, 2009:185 © Karin Haenelt, PageRank, 13.10.2013 49 M Stochastische Matrix Beispiel: aperiodisch Es ist Пk(x,x) > 0, wenn es in der Matrix einen Weg von x nach x der Länge k gibt ein Zustand x ist dann aperiodisch, wenn k = 1: П1(x,x) > 0: es gibt eine Schleife oder k ≧ 1: Пk(x,x) > 0: es gibt mindestens zwei Wege der Länge k1 und k2, und es gilt ggT(k1,k2) = 1 Beispiel A pAA1 Schritt = 0 (es gibt keine Schleife) B 2 Schritte pAA >0 pAA 3 Schritte > 0 C ggT {2,3} = 1 analog für B und C © Karin Haenelt, PageRank, 13.10.2013 50 Verletzung der Konvergenzbedingungen Periodische Matrix – Beispiel 1 Periodische Matrix Prozess konvergiert nicht bzw. Konvergenz ist abhängig vom Startvektor A B Konvergenz abhängig vom Startvektor p0 H p0 p1 p2 p0 0 1 1 0 1 0 0 1 1 0 1 1 konvergiert nicht Fixvektor existiert © Karin Haenelt, PageRank, 13.10.2013 p1 2 2 1 1 2 2 konvergiert H 0 1 1 2 1 ⋅ = 1 0 1 2 1 2 2 51 Verletzung der Konvergenzbedingungen Periodische Matrix – Beispiel 2 Periodische Matrix Prozess konvergiert nicht bzw. Konvergenz ist abhängig vom Startvektor H A B E C D 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 p0 p1 p2 p3 p4 p5 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 Prozess konvergiert nicht – obwohl ein Fixvektor existiert Austin, 2006 © Karin Haenelt, PageRank, 13.10.2013 52 Literatur Patente Lawrence Page (2001), Method for node ranking in a linked database—Patent number 6,285,999—September 4, 2001 (Original PageRank U.S. Patent), http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6,285,999 und http://www.google.com/patents/US6285999 Lawrence Page (2004), PageRank U.S. Patent—Method for scoring documents in a linked database—Patent number 6,799,176—September 28, 2004 Lawrence Page (2006), PageRank U.S. Patent—Method for node ranking in a linked database—Patent number 7,058,628—June 6, 2006 Lawrence Page (2007), PageRank U.S. Patent—Scoring documents in a linked database—Patent number 7,269,587—September 11, 2007 © Karin Haenelt, PageRank, 13.10.2013 53 Literatur PageRank David Austin (2006), How Google Finds Your Needle in the Web’s Haystack. American Mathematical Society. Feature Column: Monthly Essays on Mathematical Topics. December, 2006. http://www.ams.org/samplings/feature-column/fcarc-pagerank (besucht: August 2013) Michael W. Berry und Murray Browne (2005). Understanding Search Engines. Mathematical Modelling and Text Retrieval. Philadelphia: Society for Industrial and Applied Mathematics (SIAM). Amy N. Langville & Carl D. Meyer (2006). Google’s PageRank and Beyond: The Science of Search Engine Rankings, Princeton University Press Edith Law (2008). Page Rank. Lecture. 9.10.2008. http://www.cs.cmu.edu/~elaw/pagerank.pdf © Karin Haenelt, PageRank, 13.10.2013 54 Literatur PageRank Christopher Manning, Prabhakar Raghavan, Hinrich Schütze (2007) . Introduction to Information Retrieval. Kap. 21. Cambridge University Press. Rebecca S. Wills (2008). Google's PageRank for Beginners: A Directed Graph Example for Liberal Arts Math Courses. https://sites.google.com/site/rebeccawillswebsite/Home/papers_and_presentations/R SW_Mathfest_08_PageRank_2.pdf (besucht: August 2013) Rebecca S. Wills (2006). Google's PageRank: The Math Behind the Search Engine. http://www.cems.uvm.edu/~tlakoba/AppliedUGMath/other_Google/Wills.pdf (besucht: August 2013) © Karin Haenelt, PageRank, 13.10.2013 55 Literatur Mathematische Grundlagen Michael Artin (1998). Algebra. Aus dem Englischen übersetzt von Annette A‘Campo. Basel, Boston, Berlin: Birkhäuser Verlag. Siegfried Bosch (2006). Lineare Algebra. Heidelberg: Springer Verlag. Ferdinand Georg Frobenius (1912). Über Matrizen aus nicht negativen Elementen, Berl. Ber. 1912, 456-477. elektronisches Faksimile: http://dx.doi.org/10.3931/e-rara-18865 Hans Otto Georgii (2009). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Aufl. Berlin: Walter de Gruyter. Wolfgang Hackbusch (2004). Iterative Lösung großer Gleichungssysteme. www.mis.mpg.de/scicomp/Fulltext/ggl.ps (besucht: August 2013) Jim Hefferon (2012). Linear Algebra. 29.2.2012. http://joshua.smcvt.edu/linearalgebra Jürgen Kunze (2013). Notizen zum PageRank-Verfahren. Internes Papier. HumboldtUniversität zu Berlin. 21.6.2013 Oskar Perron (1907). Zur Theorie der Matrices, Math. Ann. 64, 248-263. elektronisches Faksimile: http://gdz.sub.unigoettingen.de/dms/load/img/?PPN=GDZPPN002261693&IDDOC=36725 © Karin Haenelt, PageRank, 13.10.2013 56