Die Mathematik hinter Google

Werbung
Die Mathematik hinter Google
Wolfram Decker
TU Kaiserslautern
Kaiserslautern, Januar 8, 2013
Die Gründer von Google
Sergey Brin and Larry Page.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Geschäftszahlen von Google
Jahr
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
Wolfram Decker
Geschäftszahlen
Umsatz
Gewinn
in Mio. $ in Mio. $
29.321
8.505
23.648
6.519
21.795
4.282
16.503
4.203
10.604
3.078
6.139
1.465
3.200
399, 1
961, 9
105, 6
347, 8
99, 7
86, 4
7, 0
19, 1
−14, 7
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Elemente einer Suchmaschine
WWW
Crawler Module
Page Repository
Queries
Indexing Module
Query
Module
Results
query−independent
User
Ranking
Module
Indexes
Content Index
Special−purpose Indexes
Structure Index
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Elemente einer Suchmaschine
Crawler Module. Virtuelle Roboter (Crawler, Spider)
durchsuchen WWW nach neuen oder veränderten Seiten und
speichern diese in Page Repository.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Elemente einer Suchmaschine
Crawler Module. Virtuelle Roboter (Crawler, Spider)
durchsuchen WWW nach neuen oder veränderten Seiten und
speichern diese in Page Repository.
Page Repository. Zentraler Speicher für WWW-Seiten
(temporär, permanent).
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Elemente einer Suchmaschine
Crawler Module. Virtuelle Roboter (Crawler, Spider)
durchsuchen WWW nach neuen oder veränderten Seiten und
speichern diese in Page Repository.
Page Repository. Zentraler Speicher für WWW-Seiten
(temporär, permanent).
Indexing Module. Komprimiert Information einer Seite auf
das wesentliche (Content Index, Structure Index, Special
Purpose Indexes).
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Elemente einer Suchmaschine
Crawler Module. Virtuelle Roboter (Crawler, Spider)
durchsuchen WWW nach neuen oder veränderten Seiten und
speichern diese in Page Repository.
Page Repository. Zentraler Speicher für WWW-Seiten
(temporär, permanent).
Indexing Module. Komprimiert Information einer Seite auf
das wesentliche (Content Index, Structure Index, Special
Purpose Indexes).
Query Module. Verwandelt Anfrage in für das Suchsystem
verständliche Information, kommuniziert mit Index Module
und Ranking Module (relevante Seiten).
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Elemente einer Suchmaschine
Crawler Module. Virtuelle Roboter (Crawler, Spider)
durchsuchen WWW nach neuen oder veränderten Seiten und
speichern diese in Page Repository.
Page Repository. Zentraler Speicher für WWW-Seiten
(temporär, permanent).
Indexing Module. Komprimiert Information einer Seite auf
das wesentliche (Content Index, Structure Index, Special
Purpose Indexes).
Query Module. Verwandelt Anfrage in für das Suchsystem
verständliche Information, kommuniziert mit Index Module
und Ranking Module (relevante Seiten).
Ranking Module. Bringt relevante Seiten in Reihenfolge
(overall score = content score multipliziert mit popularity
score).
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Wie groß ist das WWW?
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank (Google’s Popularity Score) : Idee
Der PageRank einer Seite orientiert sich an der Linkstruktur des
WWW (eingehende und ausgehende Links).
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank (Google’s Popularity Score) : Idee
Der PageRank einer Seite orientiert sich an der Linkstruktur des
WWW (eingehende und ausgehende Links).
Prinzipien:
eingehender Link = Empfehlung.
Gewicht des Empfehlenden ist wichtig.
Ein Empfehlender verliert an Gewicht, wenn er seine
Empfehlungen allzu freigiebig verteilt.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank (Google’s Popularity Score) : Idee
Der PageRank einer Seite orientiert sich an der Linkstruktur des
WWW (eingehende und ausgehende Links).
Prinzipien:
eingehender Link = Empfehlung.
Gewicht des Empfehlenden ist wichtig.
Ein Empfehlender verliert an Gewicht, wenn er seine
Empfehlungen allzu freigiebig verteilt.
Mathematische Formel. Ist EPi die Menge der Seiten des
WWW, die auf die Seite Pi zeigen, so definieren wir den Rang
r (Pi ) von Pi durch die Formel
X r (Pj )
r (Pi ) =
A(Pj )
Pj ∈EPi
Dabei ist A(Pj ) die Anzahl der von der Seite Pj ausgehenden Links.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Das WWW ist ein gerichteter Graph, sagen wir mit N Seiten.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Das WWW ist ein gerichteter Graph, sagen wir mit N Seiten.
Hier ist ein Beispiel mit N = 3:
2
1
1
Wolfram Decker
1
1
2
1
2
Die Mathematik hinter Google
3
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Das WWW ist ein gerichteter Graph, sagen wir mit N Seiten.
Hier ist ein Beispiel mit N = 3:
2
1
1
1
1
2
1
2
3
Die Empfehlungen stellt man als Übergangsmatrix dar:


0 0 21
T = 1 0 12 
0 1 0
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich
zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt
er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der
von Pj ausgehenden Links.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich
zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt
er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der
von Pj ausgehenden Links.
In diesem stochastischen Modell hängt das, was als nächstes
passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit
spielt keine Rolle.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich
zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt
er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der
von Pj ausgehenden Links.
In diesem stochastischen Modell hängt das, was als nächstes
passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit
spielt keine Rolle. Man spricht auch von einer Markovkette.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich
zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt
er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der
von Pj ausgehenden Links.
In diesem stochastischen Modell hängt das, was als nächstes
passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit
spielt keine Rolle. Man spricht auch von einer Markovkette.
Man beachte, dass die Einträge in der Matrix alle nichtnegativ sind
und dass die Summe der Einträge jeder Spalte gleich 1 ist.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Veranschaulichung der Formel
Stochastisches Modell: Random Surfer. Ein Surfer bewegt sich
zufällig im WWW. Wann immer er auf die Seite P j stößt, so klickt
er als nächstes mit der Wahrscheinlichkeit 1/A(P j ) auf einen der
von Pj ausgehenden Links.
In diesem stochastischen Modell hängt das, was als nächstes
passiert, nur vom gegenwärtigen Zeitpunkt ab. Die Vergangenheit
spielt keine Rolle. Man spricht auch von einer Markovkette.
Man beachte, dass die Einträge in der Matrix alle nichtnegativ sind
und dass die Summe der Einträge jeder Spalte gleich 1 ist. Eine
solche Matrix heißt stochastisch.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung I
Die PageRank-Formel ergibt ein lineares Gleichungssystem. In
unserem Beispiel:
x1 =
1/2 x3
x2 = x 1
+ 1/2 x3
x3 =
x2
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung I
Die PageRank-Formel ergibt ein lineares Gleichungssystem. In
unserem Beispiel:
x1 =
1/2 x3
x2 = x 1
+ 1/2 x3
x3 =
x2
In Matrixschreibweise:
  
  
0 0 12
x1
x1
x2  = 1 0 1  · x2 
2
x3
x3
0 1 0
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung I
Die PageRank-Formel ergibt ein lineares Gleichungssystem. In
unserem Beispiel:
x1 =
1/2 x3
x2 = x 1
+ 1/2 x3
x3 =
x2
In Matrixschreibweise:
  
  
0 0 12
x1
x1
x2  = 1 0 1  · x2 
2
x3
x3
0 1 0
Mathematische Kurzform für das Gleichungssystem:
x =T ·x
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung I
Lösung:
 
1/2

x=
1 
1
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung I
Lösung:
 
1/2

x=
1 
1
Lösung kann skaliert werden:
 
1/5
x = 2/5 ,
2/5
Wolfram Decker

3/5
x = 6/5
6/5
Die Mathematik hinter Google

Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem I
Hat das PageRank-Gleichungssystem immer eine von Null
verschiedene Lösung?
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem I
Hat das PageRank-Gleichungssystem immer eine von Null
verschiedene Lösung?
Wegen der speziellen Form des PageRank-Gleichungssystems kann
man diese Frage auch so ausdrücken: Hat die PageRank-Matrix
immer den Eigenwert λ = 1?
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem I
Hat das PageRank-Gleichungssystem immer eine von Null
verschiedene Lösung?
Wegen der speziellen Form des PageRank-Gleichungssystems kann
man diese Frage auch so ausdrücken: Hat die PageRank-Matrix
immer den Eigenwert λ = 1?
λ · x = T · x.
Dann ist der PageRank ein Eigenvektor zum Eigenwert 1.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem I
Hat das PageRank-Gleichungssystem immer eine von Null
verschiedene Lösung?
Wegen der speziellen Form des PageRank-Gleichungssystems kann
man diese Frage auch so ausdrücken: Hat die PageRank-Matrix
immer den Eigenwert λ = 1?
λ · x = T · x.
Dann ist der PageRank ein Eigenvektor zum Eigenwert 1.
Bemerkung. Jede stochastische Matrix hat den Eigenwert 1.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem I
Beispiel. Wir betrachten den folgenden Graphen (N = 3):
2
1
1
2
1
Wolfram Decker
1
2
Die Mathematik hinter Google
3
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem I
Beispiel. Wir betrachten den folgenden Graphen (N = 3):
2
1
1
2
1
1
2
3
Die zugehörige Übergangsmatrix ist nicht stochastisch:


0 0 12
T = 0 0 12 
0 1 0
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem I
Das Problem im Beispiel liegt darin begründet, daß von Seite 1
kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem I
Das Problem im Beispiel liegt darin begründet, daß von Seite 1
kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu
schaffen, korrigieren wir unser Modell, indem wir dem Surfer im
Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer
beliebigen Stelle zu springen.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem I
Das Problem im Beispiel liegt darin begründet, daß von Seite 1
kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu
schaffen, korrigieren wir unser Modell, indem wir dem Surfer im
Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer
beliebigen Stelle zu springen. In unserem Beispiel erhalten wir die
korrigierte Matrix
1

1
3 0 2
T =  13 0 12  .
1
3 1 0
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem I
Das Problem im Beispiel liegt darin begründet, daß von Seite 1
kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu
schaffen, korrigieren wir unser Modell, indem wir dem Surfer im
Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer
beliebigen Stelle zu springen. In unserem Beispiel erhalten wir die
korrigierte Matrix
1

1
3 0 2
T =  13 0 12  .
1
3 1 0
Das neue Modell spiegelt unser Verhalten im Internet besser wieder
als das alte.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem I
Das Problem im Beispiel liegt darin begründet, daß von Seite 1
kein Link ausgeht. Mit anderen Worten: A(P 1 ) = 0. Um Abhilfe zu
schaffen, korrigieren wir unser Modell, indem wir dem Surfer im
Falle A(Pj ) = 0 erlauben, mit der Wahrscheinlichkeit 1/N zu einer
beliebigen Stelle zu springen. In unserem Beispiel erhalten wir die
korrigierte Matrix
1

1
3 0 2
T =  13 0 12  .
1
3 1 0
Das neue Modell spiegelt unser Verhalten im Internet besser wieder
als das alte. Mathematisch haben wir erreicht, dass die
Übergangsmatrix nun immer stochastisch ist. Also hat unser
PageRank-Gleichungssystem nun immer eine Lösung!
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem II
In der Praxis ist die Zahl N sehr groß (sagen wir 45 Milliarden).
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem II
In der Praxis ist die Zahl N sehr groß (sagen wir 45 Milliarden).
Kann man dann überhaupt noch eine Lösung berechnen?
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Ist die Lösung des PageRank-Gleichungssystems eindeutig
bestimmt (bis auf Skalierung)?
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Ist die Lösung des PageRank-Gleichungssystems eindeutig
bestimmt (bis auf Skalierung)?
Man kann diese Frage auch so ausdrücken: Gibt es, abgesehen von
Skalierung, mehr als einen Eigenvektor zum Eigenwert λ = 1?
λ · x = T · x.
Beispiel. Wir betrachten den folgenden Graphen (N = 6).
Wolfram Decker
1
4
5
2
3
6
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Die zugehörige Übergangsmatrix

0 12
1 0
 21 1

2
2
T =
0 0

0 0
0 0
Wolfram Decker
ist
1
2
1
2
0
0
0
0
1
2
0
0
0
1
2
0
Die Mathematik hinter Google
0
0
0
0
0
1

0
0

0

0

1
0
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Zum Eigenwert λ = 1 hat T die zwei linear unabhängigen
Eigenvektoren
 
 
0
1
0
1
 
 
 
1
  und 0 .
0
0
 
 
1
0
1
0
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Zum Eigenwert λ = 1 hat T die zwei linear unabhängigen
Eigenvektoren
 
 
0
1
0
1
 
 
 
1
  und 0 .
0
0
 
 
1
0
1
0
Schlimmer noch: jeder der beiden Vektoren bewertet mehrere
Seiten mit 0, obwohl sie eingehende Links haben.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Das Problem im Beispiel liegt darin begründet, dass ein Surfer, der
einmal den linken (bzw. den rechten) Teil des Graphen erreicht
hat, nicht wieder aus diesem herauskommt.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Das Problem im Beispiel liegt darin begründet, dass ein Surfer, der
einmal den linken (bzw. den rechten) Teil des Graphen erreicht
hat, nicht wieder aus diesem herauskommt. Unser erstes Beispiel
verhält sich anders:
2
1
1
Wolfram Decker
1
1
2
1
2
Die Mathematik hinter Google
3
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Das Problem im Beispiel liegt darin begründet, dass ein Surfer, der
einmal den linken (bzw. den rechten) Teil des Graphen erreicht
hat, nicht wieder aus diesem herauskommt. Unser erstes Beispiel
verhält sich anders:
2
1
1
1
1
2
1
2
3
Tatsc̈hlich kann ich hier von jeder beliebig vorgebenen Seite auf
jede beliebig vorgegebene Seite gelangen - in endlichen vielen
Schritten. Ist diese Bedingung erfüllt, so nennen wir unser Modell
irreduzibel.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Der Satz von Perron-Frobenius besagt, dass es im irreduziblen
Fall einen - bis auf Skalierung - eindeutig bestimmten Eigenvektor
zum Eigenwert 1 gibt, und daß jeder Eintrag dieses Vektors strikt
positiv ist.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Der Satz von Perron-Frobenius besagt, dass es im irreduziblen
Fall einen - bis auf Skalierung - eindeutig bestimmten Eigenvektor
zum Eigenwert 1 gibt, und daß jeder Eintrag dieses Vektors strikt
positiv ist.
Was bedeutet irreduzibel für unsere Übergangsmatrix T?
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Der Satz von Perron-Frobenius besagt, dass es im irreduziblen
Fall einen - bis auf Skalierung - eindeutig bestimmten Eigenvektor
zum Eigenwert 1 gibt, und daß jeder Eintrag dieses Vektors strikt
positiv ist.
Was bedeutet irreduzibel für unsere Übergangsmatrix T?
Zunächst einmal bedeutet irreduzibel, daß bei beliebig
vorgegebenen Seiten Pj und Pi die Wahrscheinlichkeit dafür, daß
ich in endlich vielen Schritten von P j nach Pi gelange, strikt
positiv ist.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Ist eine Zahl n vorgegeben, so ist die Wahrscheinlichkeit dafür, daß
ich in n Schritten von Pj nach Pi gelange, gerade der ij-Eintrag der
potenzierten Matrix T n .
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Ist eine Zahl n vorgegeben, so ist die Wahrscheinlichkeit dafür, daß
ich in n Schritten von Pj nach Pi gelange, gerade der ij-Eintrag der
potenzierten Matrix T n . In unserem Beispiel erhalten wir für n = 2:

 
 

0 0 1/2
0 0 1/2
0 1/2 0
T 2 = 1 0 1/2 · 1 0 1/2 = 0 1/2 1/2 .
0 1 0
0 1 0
1 0 1/2
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Ist eine Zahl n vorgegeben, so ist die Wahrscheinlichkeit dafür, daß
ich in n Schritten von Pj nach Pi gelange, gerade der ij-Eintrag der
potenzierten Matrix T n . In unserem Beispiel erhalten wir für n = 2:

 
 

0 0 1/2
0 0 1/2
0 1/2 0
T 2 = 1 0 1/2 · 1 0 1/2 = 0 1/2 1/2 .
0 1 0
0 1 0
1 0 1/2
2
1
1
Wolfram Decker
1
1
2
1
2
Die Mathematik hinter Google
3
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Experimentieren wir mit den Potenzen von T, so erhalten wir zum
Beispiel


1/4 1/4 1/8
T 5 = 1/4 1/2 3/8 
1/2 1/4 1/2
und
T 20

 

51/256 205/1024 205/1024
0.20 0.20 0.20
= 205/512 409/1024 205/512  ∼ 0.40 0.40 0.40 .
205/512 205/512 409/1024
0.40 0.40 0.40
Können wir ein n > 0 finden, so daß alle Einträge von T n strikt
positiv sind, so sprechen wir von einem primitiven Modell.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Beispiel. Wir betrachten den folgenden Graphen (N = 2):
1
Wolfram Decker
Die Mathematik hinter Google
2
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Beispiel. Wir betrachten den folgenden Graphen (N = 2):
1
2
Hier gilt
0 1
T =
1 0
und
T2 =
Wolfram Decker
1 0
.
0 1
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Beispiel. Wir betrachten den folgenden Graphen (N = 2):
1
2
Hier gilt
0 1
T =
1 0
und
T2 =
1 0
.
0 1
Das Modell ist irreduzibel aber nicht primitiv.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Jedes primitive Modell hingegen ist irreduzibel.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Jedes primitive Modell hingegen ist irreduzibel.
Im Falle der Primitivheit gilt immer, dass die sukzessiven Potenzen
T n für n −→ ∞ gegen eine Matrix konvergieren, so dass jede
Spalte dieser Matrix der bis auf Skalierung eindeutig bestimmte
Eigenvektor ist!!!
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Berechnung, Problem III
Jedes primitive Modell hingegen ist irreduzibel.
Im Falle der Primitivheit gilt immer, dass die sukzessiven Potenzen
T n für n −→ ∞ gegen eine Matrix konvergieren, so dass jede
Spalte dieser Matrix der bis auf Skalierung eindeutig bestimmte
Eigenvektor ist!!!
Dies bedeutet, dass wir diesem Vektor nahe kommen, wenn wir
ausgehend von einem beliebigen stochastischen Startvektor x (0)
sukzessive x (i +1) = T · x (i ) berechnen.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
Iteration im Beispiel
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Wir müssen also unser Modell noch einmal modifizieren: Wir
ersetzen die bisherige Matrix T durch die folgende Matrix:
α · T + (1 − α) · S.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Wir müssen also unser Modell noch einmal modifizieren: Wir
ersetzen die bisherige Matrix T durch die folgende Matrix:
α · T + (1 − α) · S.
Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α
ist ein Dämpfungsfaktor zwischen 0 und 1.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Wir müssen also unser Modell noch einmal modifizieren: Wir
ersetzen die bisherige Matrix T durch die folgende Matrix:
α · T + (1 − α) · S.
Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α
ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer
auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer
gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links
zu folgen.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Wir müssen also unser Modell noch einmal modifizieren: Wir
ersetzen die bisherige Matrix T durch die folgende Matrix:
α · T + (1 − α) · S.
Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α
ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer
auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer
gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links
zu folgen. Alternativ kann er mit einer anderen Wahrscheinlichkeit
eine beliebige Adresse eintippen.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Wir müssen also unser Modell noch einmal modifizieren: Wir
ersetzen die bisherige Matrix T durch die folgende Matrix:
α · T + (1 − α) · S.
Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α
ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer
auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer
gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links
zu folgen. Alternativ kann er mit einer anderen Wahrscheinlichkeit
eine beliebige Adresse eintippen. Die Wahl von α beeinflusst die
Konvergenzgeschwindigkeit der Iteration.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Wir müssen also unser Modell noch einmal modifizieren: Wir
ersetzen die bisherige Matrix T durch die folgende Matrix:
α · T + (1 − α) · S.
Dabei ist S die Matrix, in der jeder Eintrag gleich 1/N ist, und α
ist ein Dämpfungsfaktor zwischen 0 und 1. Wann immer der Surfer
auf die Seite Pj stößt, hat er wie bisher die Möglichkeit, mit einer
gewissen Wahrscheinlichkeit einem der von P j ausgehenden Links
zu folgen. Alternativ kann er mit einer anderen Wahrscheinlichkeit
eine beliebige Adresse eintippen. Die Wahl von α beeinflusst die
Konvergenzgeschwindigkeit der Iteration. Bei Google wählt man
α = 0.85.
Wolfram Decker
Die Mathematik hinter Google
Kaiserslautern, Januar 8, 2013
PageRank: Lösung zu Problem II, III
Also zum Beispiel:



1−α
0 0 12
3

1 → 
1 0 2 
α + 1−α
3
1−α
0 1 0
3
oder
Wolfram Decker

1
 31
3
1
3
0
0
1

1
2
1
2
0
→

1
 31
3
1
3
α
α
1−α
3
1−α
3
+ 1−α
3
1−α
3
1−α
3
+ 1−α
3
Die Mathematik hinter Google
α
2
α
2
α
2
α
2

1−α
3
1−α 
3 
1−α
3
+
+

1−α
3
1−α 
.
3 
1−α
3
+
+
Kaiserslautern, Januar 8, 2013
Herunterladen