Die Mathematik hinter Google Wolfram Decker TU Kaiserslautern Kaiserslautern, Januar 8, 2013 Die Gründer von Google Sergey Brin and Larry Page. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Geschäftszahlen von Google Jahr 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 Wolfram Decker Geschäftszahlen Umsatz Gewinn in Mio. $ in Mio. $ 29.321 8.505 23.648 6.519 21.795 4.282 16.503 4.203 10.604 3.078 6.139 1.465 3.200 399, 1 961, 9 105, 6 347, 8 99, 7 86, 4 7, 0 19, 1 −14, 7 Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Elemente einer Suchmaschine WWW Crawler Module Page Repository Queries Indexing Module Query Module Results query−independent User Ranking Module Indexes Content Index Special−purpose Indexes Structure Index Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Elemente einer Suchmaschine Crawler Module. Virtuelle Roboter (Crawler, Spider) durchsuchen WWW nach neuen oder veränderten Seiten und speichern diese in Page Repository. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Elemente einer Suchmaschine Crawler Module. Virtuelle Roboter (Crawler, Spider) durchsuchen WWW nach neuen oder veränderten Seiten und speichern diese in Page Repository. Page Repository. Zentraler Speicher für WWW-Seiten (temporär, permanent). Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Elemente einer Suchmaschine Crawler Module. Virtuelle Roboter (Crawler, Spider) durchsuchen WWW nach neuen oder veränderten Seiten und speichern diese in Page Repository. Page Repository. Zentraler Speicher für WWW-Seiten (temporär, permanent). Indexing Module. Komprimiert Information einer Seite auf das wesentliche (Content Index, Structure Index, Special Purpose Indexes). Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Elemente einer Suchmaschine Crawler Module. Virtuelle Roboter (Crawler, Spider) durchsuchen WWW nach neuen oder veränderten Seiten und speichern diese in Page Repository. Page Repository. Zentraler Speicher für WWW-Seiten (temporär, permanent). Indexing Module. Komprimiert Information einer Seite auf das wesentliche (Content Index, Structure Index, Special Purpose Indexes). Query Module. Verwandelt Anfrage in für das Suchsystem verständliche Information, kommuniziert mit Index Module und Ranking Module (relevante Seiten). Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Elemente einer Suchmaschine Crawler Module. Virtuelle Roboter (Crawler, Spider) durchsuchen WWW nach neuen oder veränderten Seiten und speichern diese in Page Repository. Page Repository. Zentraler Speicher für WWW-Seiten (temporär, permanent). Indexing Module. Komprimiert Information einer Seite auf das wesentliche (Content Index, Structure Index, Special Purpose Indexes). Query Module. Verwandelt Anfrage in für das Suchsystem verständliche Information, kommuniziert mit Index Module und Ranking Module (relevante Seiten). Ranking Module. Bringt relevante Seiten in Reihenfolge (overall score = content score multipliziert mit popularity score). Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Wie groß ist das WWW? Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank (Google’s Popularity Score) : Idee Der PageRank einer Seite orientiert sich an der Linkstruktur des WWW (eingehende und ausgehende Links). Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank (Google’s Popularity Score) : Idee Der PageRank einer Seite orientiert sich an der Linkstruktur des WWW (eingehende und ausgehende Links). Prinzipien: eingehender Link = Empfehlung. Gewicht des Empfehlenden ist wichtig. Ein Empfehlender verliert an Gewicht, wenn er seine Empfehlungen allzu freigiebig verteilt. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank (Google’s Popularity Score) : Idee Der PageRank einer Seite orientiert sich an der Linkstruktur des WWW (eingehende und ausgehende Links). Prinzipien: eingehender Link = Empfehlung. Gewicht des Empfehlenden ist wichtig. Ein Empfehlender verliert an Gewicht, wenn er seine Empfehlungen allzu freigiebig verteilt. Mathematische Formel. Ist EPi die Menge der Seiten des WWW, die auf die Seite Pi zeigen, so definieren wir den Rang r (Pi ) von Pi durch die Formel X r (Pj ) r (Pi ) = A(Pj ) Pj ∈EPi Dabei ist A(Pj ) die Anzahl der von der Seite Pj ausgehenden Links. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Das WWW ist ein gerichteter Graph, sagen wir mit N Seiten. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Das WWW ist ein gerichteter Graph, sagen wir mit N Seiten. Hier ist ein Beispiel mit N = 3: 2 1 1 Wolfram Decker 1 1 2 1 2 Die Mathematik hinter Google 3 Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Das WWW ist ein gerichteter Graph, sagen wir mit N Seiten. Hier ist ein Beispiel mit N = 3: 2 1 1 1 1 2 1 2 3 Die Empfehlungen stellt man als Übergangsmatrix dar: 0 0 21 T = 1 0 12 0 1 0 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der von Pj ausgehenden Links. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der von Pj ausgehenden Links. In diesem stochastischen Modell hängt das, was als nächstes passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit spielt keine Rolle. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der von Pj ausgehenden Links. In diesem stochastischen Modell hängt das, was als nächstes passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit spielt keine Rolle. Man spricht auch von einer Markovkette. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der von Pj ausgehenden Links. In diesem stochastischen Modell hängt das, was als nächstes passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit spielt keine Rolle. Man spricht auch von einer Markovkette. Man beachte, dass die Einträge in der Matrix alle nichtnegativ sind und dass die Summe der Einträge jeder Spalte gleich 1 ist. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Veranschaulichung der Formel Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der von Pj ausgehenden Links. In diesem stochastischen Modell hängt das, was als nächstes passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit spielt keine Rolle. Man spricht auch von einer Markovkette. Man beachte, dass die Einträge in der Matrix alle nichtnegativ sind und dass die Summe der Einträge jeder Spalte gleich 1 ist. Eine solche Matrix heißt stochastisch. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung I Die PageRank-Formel ergibt ein lineares Gleichungssystem. In unserem Beispiel: x1 = 1/2 x3 x2 = x 1 + 1/2 x3 x3 = x2 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung I Die PageRank-Formel ergibt ein lineares Gleichungssystem. In unserem Beispiel: x1 = 1/2 x3 x2 = x 1 + 1/2 x3 x3 = x2 In Matrixschreibweise: 0 0 12 x1 x1 x2 = 1 0 1 · x2 2 x3 x3 0 1 0 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung I Die PageRank-Formel ergibt ein lineares Gleichungssystem. In unserem Beispiel: x1 = 1/2 x3 x2 = x 1 + 1/2 x3 x3 = x2 In Matrixschreibweise: 0 0 12 x1 x1 x2 = 1 0 1 · x2 2 x3 x3 0 1 0 Mathematische Kurzform für das Gleichungssystem: x =T ·x Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung I Lösung: 1/2 x= 1 1 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung I Lösung: 1/2 x= 1 1 Lösung kann skaliert werden: 1/5 x = 2/5 , 2/5 Wolfram Decker 3/5 x = 6/5 6/5 Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem I Hat das PageRank-Gleichungssystem immer eine von Null verschiedene Lösung? Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem I Hat das PageRank-Gleichungssystem immer eine von Null verschiedene Lösung? Wegen der speziellen Form des PageRank-Gleichungssystems kann man diese Frage auch so ausdrücken: Hat die PageRank-Matrix immer den Eigenwert λ = 1? Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem I Hat das PageRank-Gleichungssystem immer eine von Null verschiedene Lösung? Wegen der speziellen Form des PageRank-Gleichungssystems kann man diese Frage auch so ausdrücken: Hat die PageRank-Matrix immer den Eigenwert λ = 1? λ · x = T · x. Dann ist der PageRank ein Eigenvektor zum Eigenwert 1. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem I Hat das PageRank-Gleichungssystem immer eine von Null verschiedene Lösung? Wegen der speziellen Form des PageRank-Gleichungssystems kann man diese Frage auch so ausdrücken: Hat die PageRank-Matrix immer den Eigenwert λ = 1? λ · x = T · x. Dann ist der PageRank ein Eigenvektor zum Eigenwert 1. Bemerkung. Jede stochastische Matrix hat den Eigenwert 1. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem I Beispiel. Wir betrachten den folgenden Graphen (N = 3): 2 1 1 2 1 Wolfram Decker 1 2 Die Mathematik hinter Google 3 Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem I Beispiel. Wir betrachten den folgenden Graphen (N = 3): 2 1 1 2 1 1 2 3 Die zugehörige Übergangsmatrix ist nicht stochastisch: 0 0 12 T = 0 0 12 0 1 0 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem I Das Problem im Beispiel liegt darin begründet, daß von Seite 1 kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem I Das Problem im Beispiel liegt darin begründet, daß von Seite 1 kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu schaffen, korrigieren wir unser Modell, indem wir dem Surfer im Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer beliebigen Stelle zu springen. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem I Das Problem im Beispiel liegt darin begründet, daß von Seite 1 kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu schaffen, korrigieren wir unser Modell, indem wir dem Surfer im Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer beliebigen Stelle zu springen. In unserem Beispiel erhalten wir die korrigierte Matrix 1 1 3 0 2 T = 13 0 12 . 1 3 1 0 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem I Das Problem im Beispiel liegt darin begründet, daß von Seite 1 kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu schaffen, korrigieren wir unser Modell, indem wir dem Surfer im Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer beliebigen Stelle zu springen. In unserem Beispiel erhalten wir die korrigierte Matrix 1 1 3 0 2 T = 13 0 12 . 1 3 1 0 Das neue Modell spiegelt unser Verhalten im Internet besser wieder als das alte. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem I Das Problem im Beispiel liegt darin begründet, daß von Seite 1 kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu schaffen, korrigieren wir unser Modell, indem wir dem Surfer im Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer beliebigen Stelle zu springen. In unserem Beispiel erhalten wir die korrigierte Matrix 1 1 3 0 2 T = 13 0 12 . 1 3 1 0 Das neue Modell spiegelt unser Verhalten im Internet besser wieder als das alte. Mathematisch haben wir erreicht, dass die Übergangsmatrix nun immer stochastisch ist. Also hat unser PageRank-Gleichungssystem nun immer eine Lösung! Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem II In der Praxis ist die Zahl N sehr groß (sagen wir 45 Milliarden). Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem II In der Praxis ist die Zahl N sehr groß (sagen wir 45 Milliarden). Kann man dann überhaupt noch eine Lösung berechnen? Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Ist die Lösung des PageRank-Gleichungssystems eindeutig bestimmt (bis auf Skalierung)? Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Ist die Lösung des PageRank-Gleichungssystems eindeutig bestimmt (bis auf Skalierung)? Man kann diese Frage auch so ausdrücken: Gibt es, abgesehen von Skalierung, mehr als einen Eigenvektor zum Eigenwert λ = 1? λ · x = T · x. Beispiel. Wir betrachten den folgenden Graphen (N = 6). Wolfram Decker 1 4 5 2 3 6 Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Die zugehörige Übergangsmatrix 0 12 1 0 21 1 2 2 T = 0 0 0 0 0 0 Wolfram Decker ist 1 2 1 2 0 0 0 0 1 2 0 0 0 1 2 0 Die Mathematik hinter Google 0 0 0 0 0 1 0 0 0 0 1 0 Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Zum Eigenwert λ = 1 hat T die zwei linear unabhängigen Eigenvektoren 0 1 0 1 1 und 0 . 0 0 1 0 1 0 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Zum Eigenwert λ = 1 hat T die zwei linear unabhängigen Eigenvektoren 0 1 0 1 1 und 0 . 0 0 1 0 1 0 Schlimmer noch: jeder der beiden Vektoren bewertet mehrere Seiten mit 0, obwohl sie eingehende Links haben. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Das Problem im Beispiel liegt darin begründet, dass ein Surfer, der einmal den linken (bzw. den rechten) Teil des Graphen erreicht hat, nicht wieder aus diesem herauskommt. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Das Problem im Beispiel liegt darin begründet, dass ein Surfer, der einmal den linken (bzw. den rechten) Teil des Graphen erreicht hat, nicht wieder aus diesem herauskommt. Unser erstes Beispiel verhält sich anders: 2 1 1 Wolfram Decker 1 1 2 1 2 Die Mathematik hinter Google 3 Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Das Problem im Beispiel liegt darin begründet, dass ein Surfer, der einmal den linken (bzw. den rechten) Teil des Graphen erreicht hat, nicht wieder aus diesem herauskommt. Unser erstes Beispiel verhält sich anders: 2 1 1 1 1 2 1 2 3 Tatsc̈hlich kann ich hier von jeder beliebig vorgebenen Seite auf jede beliebig vorgegebene Seite gelangen - in endlichen vielen Schritten. Ist diese Bedingung erfüllt, so nennen wir unser Modell irreduzibel. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Der Satz von Perron-Frobenius besagt, dass es im irreduziblen Fall einen - bis auf Skalierung - eindeutig bestimmten Eigenvektor zum Eigenwert 1 gibt, und daß jeder Eintrag dieses Vektors strikt positiv ist. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Der Satz von Perron-Frobenius besagt, dass es im irreduziblen Fall einen - bis auf Skalierung - eindeutig bestimmten Eigenvektor zum Eigenwert 1 gibt, und daß jeder Eintrag dieses Vektors strikt positiv ist. Was bedeutet irreduzibel für unsere Übergangsmatrix T? Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Der Satz von Perron-Frobenius besagt, dass es im irreduziblen Fall einen - bis auf Skalierung - eindeutig bestimmten Eigenvektor zum Eigenwert 1 gibt, und daß jeder Eintrag dieses Vektors strikt positiv ist. Was bedeutet irreduzibel für unsere Übergangsmatrix T? Zunächst einmal bedeutet irreduzibel, daß bei beliebig vorgegebenen Seiten Pj und Pi die Wahrscheinlichkeit dafür, daß ich in endlich vielen Schritten von P j nach Pi gelange, strikt positiv ist. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Ist eine Zahl n vorgegeben, so ist die Wahrscheinlichkeit dafür, daß ich in n Schritten von Pj nach Pi gelange, gerade der ij-Eintrag der potenzierten Matrix T n . Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Ist eine Zahl n vorgegeben, so ist die Wahrscheinlichkeit dafür, daß ich in n Schritten von Pj nach Pi gelange, gerade der ij-Eintrag der potenzierten Matrix T n . In unserem Beispiel erhalten wir für n = 2: 0 0 1/2 0 0 1/2 0 1/2 0 T 2 = 1 0 1/2 · 1 0 1/2 = 0 1/2 1/2 . 0 1 0 0 1 0 1 0 1/2 Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Ist eine Zahl n vorgegeben, so ist die Wahrscheinlichkeit dafür, daß ich in n Schritten von Pj nach Pi gelange, gerade der ij-Eintrag der potenzierten Matrix T n . In unserem Beispiel erhalten wir für n = 2: 0 0 1/2 0 0 1/2 0 1/2 0 T 2 = 1 0 1/2 · 1 0 1/2 = 0 1/2 1/2 . 0 1 0 0 1 0 1 0 1/2 2 1 1 Wolfram Decker 1 1 2 1 2 Die Mathematik hinter Google 3 Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Experimentieren wir mit den Potenzen von T, so erhalten wir zum Beispiel 1/4 1/4 1/8 T 5 = 1/4 1/2 3/8 1/2 1/4 1/2 und T 20 51/256 205/1024 205/1024 0.20 0.20 0.20 = 205/512 409/1024 205/512 ∼ 0.40 0.40 0.40 . 205/512 205/512 409/1024 0.40 0.40 0.40 Können wir ein n > 0 finden, so daß alle Einträge von T n strikt positiv sind, so sprechen wir von einem primitiven Modell. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Beispiel. Wir betrachten den folgenden Graphen (N = 2): 1 Wolfram Decker Die Mathematik hinter Google 2 Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Beispiel. Wir betrachten den folgenden Graphen (N = 2): 1 2 Hier gilt 0 1 T = 1 0 und T2 = Wolfram Decker 1 0 . 0 1 Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Beispiel. Wir betrachten den folgenden Graphen (N = 2): 1 2 Hier gilt 0 1 T = 1 0 und T2 = 1 0 . 0 1 Das Modell ist irreduzibel aber nicht primitiv. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Jedes primitive Modell hingegen ist irreduzibel. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Jedes primitive Modell hingegen ist irreduzibel. Im Falle der Primitivheit gilt immer, dass die sukzessiven Potenzen T n für n −→ ∞ gegen eine Matrix konvergieren, so dass jede Spalte dieser Matrix der bis auf Skalierung eindeutig bestimmte Eigenvektor ist!!! Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Berechnung, Problem III Jedes primitive Modell hingegen ist irreduzibel. Im Falle der Primitivheit gilt immer, dass die sukzessiven Potenzen T n für n −→ ∞ gegen eine Matrix konvergieren, so dass jede Spalte dieser Matrix der bis auf Skalierung eindeutig bestimmte Eigenvektor ist!!! Dies bedeutet, dass wir diesem Vektor nahe kommen, wenn wir ausgehend von einem beliebigen stochastischen Startvektor x (0) sukzessive x (i +1) = T · x (i ) berechnen. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 Iteration im Beispiel Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Wir müssen also unser Modell noch einmal modifizieren: Wir ersetzen die bisherige Matrix T durch die folgende Matrix: α · T + (1 − α) · S. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Wir müssen also unser Modell noch einmal modifizieren: Wir ersetzen die bisherige Matrix T durch die folgende Matrix: α · T + (1 − α) · S. Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α ist ein Dämpfungsfaktor zwischen 0 und 1. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Wir müssen also unser Modell noch einmal modifizieren: Wir ersetzen die bisherige Matrix T durch die folgende Matrix: α · T + (1 − α) · S. Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links zu folgen. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Wir müssen also unser Modell noch einmal modifizieren: Wir ersetzen die bisherige Matrix T durch die folgende Matrix: α · T + (1 − α) · S. Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links zu folgen. Alternativ kann er mit einer anderen Wahrscheinlichkeit eine beliebige Adresse eintippen. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Wir müssen also unser Modell noch einmal modifizieren: Wir ersetzen die bisherige Matrix T durch die folgende Matrix: α · T + (1 − α) · S. Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links zu folgen. Alternativ kann er mit einer anderen Wahrscheinlichkeit eine beliebige Adresse eintippen. Die Wahl von α beeinflusst die Konvergenzgeschwindigkeit der Iteration. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Wir müssen also unser Modell noch einmal modifizieren: Wir ersetzen die bisherige Matrix T durch die folgende Matrix: α · T + (1 − α) · S. Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links zu folgen. Alternativ kann er mit einer anderen Wahrscheinlichkeit eine beliebige Adresse eintippen. Die Wahl von α beeinflusst die Konvergenzgeschwindigkeit der Iteration. Bei Google wählt man α = 0.85. Wolfram Decker Die Mathematik hinter Google Kaiserslautern, Januar 8, 2013 PageRank: Lösung zu Problem II, III Also zum Beispiel: 1−α 0 0 12 3 1 → 1 0 2 α + 1−α 3 1−α 0 1 0 3 oder Wolfram Decker 1 31 3 1 3 0 0 1 1 2 1 2 0 → 1 31 3 1 3 α α 1−α 3 1−α 3 + 1−α 3 1−α 3 1−α 3 + 1−α 3 Die Mathematik hinter Google α 2 α 2 α 2 α 2 1−α 3 1−α 3 1−α 3 + + 1−α 3 1−α . 3 1−α 3 + + Kaiserslautern, Januar 8, 2013