Teil 1+2

Werbung
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
14. Google Explained: Eigenwerte, Graphen, Flüsse
14.1. Eigenwerte und Eigenvektoren
Def D 14-1
Eigenwerte und Eigenvektoren
Gegeben sei eine nxn-Matrix A. Ein Vektor v0 heißt Eigenvektor zu A, wenn Av die gleiche oder die gegengleiche Richtung zu v hat. Als Gleichung ausgedrückt: Es gibt eine Zahl
, so dass gilt
Av = v
Die Zahl  nennt man den Eigenwert zu A.
Graphische Darstellung s. ..\..\maple\eigenwert.mws
Viele Fragen schließen sich an:
 Wozu braucht man Eigenvektoren und Eigenwerte?
 Wie findet man Eigenwerte und Eigenvektoren?
 Wieiviele Eigenwerte hat eine Matrix? Hat überhaupt jede Matrix Eigenwerte?
14.1.1.
Wozu braucht man Eigenwerte?
Beispiel City – Factory Outlet
Lit.: [Brill01, S. 149]
Kunden und Kundenwanderung von Jahr zu Jahr:
80%
20%
City-Kunden
Outlet-Kunden
cn
on
10%
90%
Um ihre Lagerbestände besser planen zu können, fragen sich die City-Einzelhändler: Gibt es
einen stationären Zustand? D. h. gibt es ein Verhältnis von City-Kunden zu Outlet-Kunden,
das im nächsten Jahr – und damit in allen Folgejahren – genau gleich sein wird?
Mathematische Problemformulierung:
c 
v n   n 
 on 

cn, on: City-, Outlet-Kunden im Jahr n.

 c   0.8 0.1  c n 
   Av n
v n 1   n 1   
 o n 1   0.2 0.9  o n 
 W. Konen
PageRank-Workshop-ext.doc
Seite 1
Prof. Dr. Wolfgang Konen

Workshop Mathematik, SS2007
25.06.2007
Wenn wir einen stationären Zustand suchen, dann ist dies ein v mit v  Av . Dies ist
ein Spezialfall der Gleichung aus Def D 14-1 mit =1. Wir suchen also Eigenvektoren
v der Matrix A zu Eigenwert =1.
Beispiel Google's PageRank
[L. Page, S. Brin et al. The PageRank citation ranking: Bringing order to the web. Stanford
Digital Libraries Working Paper, 1998, http://dbpubs.stanford.edu]
["PageRank" unter www.wikipedia.org]
Eine der berühmtesten Suchmaschinen im Web, Google, gegründet von Larry Page und
Sergej Brin, hat nicht zuletzt deshalb eine solch überragende Verbreitung erlangt, weil sie die
Abertausend Weblinks zu einer Suchanfrage clever sortiert.
 Grundidee: Die Websites nach Bedeutung sortieren.
 Was ist "bedeutend"? Eine Website v ist umso bedeutender, je mehr bedeutende
Websites u auf sie zeigen. Henne-Ei-Problem: Um die Bedeutung von v zu berechnen, müssen wir bereits die Bedeutung von u kennen. Wie kommen wir da raus?
 Formulieren wir genauer (vereinfachter PageRank-Algorithmus):
 xu : Bedeutung der Website u
 Nu : Anzahl der Websites, auf die u zeigt (sog. Outlinks von u).
Jede Website u verteilt ihre Bedeutung xu auf ihre Outlinks, und zwar zu gleichen Teilen:
Abbildung 14.1: (a) Bedeutungsübertragung, (b) konvergierter Zustand im vereinfachten PageRank-Verfahren
x v   A vu x u
u
mit
1 / Nu wenn u auf v zeigt
A vu  
 0 sonst
Die Matrix A heißt spaltenstochastisch: Die Summe der Elemente in jeder Spalte ergibt 1.
(s. Aufgabe 14.3.1 für eine einfache Folgerung daraus)
Beispiel: Wir betrachten ein minimales WWW-Universum aus 5 Websites mit folgender Linkstruktur:
 W. Konen
PageRank-Workshop-ext.doc
Seite 2
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
1
5
2
4
3
0

0
x  Ax   13

 13
1
 3
25.06.2007
1 0
0 1
1
2
0 0
0 0
0 0
1
2
0
0
0
1

0
0 x

0

0
Der PageRank-Algorithmus hat einen konvergierten Endzustand x erreicht, wenn die Anwendung von A wieder x liefert.
Kennen wir also den Eigenvektor der Matrix A zu Eigenwert =1, so haben wir das HenneEi-Problem zur Bedeutungsfindung gelöst! Die Web-Crawler, die für Google das gigantische
WWW durchsurfen erledigen also periodisch eine gigantische Eigenwertaufgabe (letze Zählung: 3 Mrd. Webseiten)
"PageRank relies on the uniquely democratic nature of the web by using its vast link structure
as an indicator of an individual page's value. Google interprets a link from page A to page B as
a vote, by page A, for page B. But, Google looks at more than the sheer volume of votes, or
links a page receives; it also analyzes the page that casts the vote. Votes cast by pages that
are themselves 'important' weigh more heavily and help to make other pages 'important'."
http://www.google.com/technology
Weitere Anwendungsfelder von Eigenwert und Eigenvektor:
A10000

Wie berechnet man

Welches Mischungsverhältnis stellt sich, ein, wenn bestimmte Reaktions-DiffusionsVorgänge ablaufen?
14.1.2.
OHNE 10.000 Matrixmultiplikationen zu brauchen?
Wie findet man Eigenwerte und Eigenvektoren?
Die nachfolgende Definition und der Satz werden in Vorlesung motiviert:
Def D 14-2
Charakteristisches Polynom und Gleichung
A sei eine nxn-Matrix, E die nxn Einheitsmatrix. Dann heißt p() = det( A -  E) das
charakteristische Polynom zu A, bzw
det ( A -  E) = 0
charakteristische Gleichung der Matrix A.
Satz S 14-1
Charakteristisches Polynom und Eigenwerte
Die (j-fachen) Nullstellen des charakteristischen Polynoms von A sind (j-fache) Eigenwerte der Matrix A. Zu jedem Eigenwert i von A existieren Vektoren v
 0 mit
A v = i v
Nach Def D 14-1 sind die v die Eigenvektoren von A zum Eigenwert i.
ANMERKUNGEN:
 W. Konen
PageRank-Workshop-ext.doc
Seite 3
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007

Wenn v ein Eigenvektor ist, so ist auch kv ein Eigenvektor für jedes k  0.

Wenn v und v Eigenvektoren zum Eigenwert i sind, dann ist auch jede Linear(a)
(b)
kombination v = cv + dv ein Eigenvektor.
(a)
(b)
Wir haben also folgendes Rezept zur Bestimmung von Eigenwerten und –vektoren:
1. Finde alle Nullstellen des charakteristischen Polynoms, dies sind die Eigenwerte i.
2. Für jeden Eigenwert i löse man das LGS (A - i E) v = 0, das immer mindestens
eine Lösung v  0 hat und das für einen mehrfachen Eigenwert auch mehrere linear
unabhängige Vektoren v als Lösung haben kann.
Ü
 0.8 0.1 
 aus dem
0
.
2
0
.
9


Übung: Bestimmen Sie die Eigenwerte und –vektoren der Matrix A  
City – Factory Outlet-Beispiel! Welcher Gleichgewichts-Kundenvektor stellt sich also ein?
Satz S 14-2
Eigenschaften von Eigenwerten
a) Die Eigenvektoren eines j-fachen Eigenwertes einer Matrix A bilden einen mindestens
eindimensionalen und höchstens j-dimensionalen Unterraum.
b) Hat die nxn-Matrix A n paarweise verschiedene Eigenwerte iR, i=1,..n, dann
kann man vi, i=1,..n Eigenvektoren der Länge 1 angeben, so daß die Menge dieser
Eigenvektoren V={vi| vi ist Eigenvektor zu i mit
c) Die Matrizen A und AT haben dieselben Eigenwerte.
|vi|=1 }
linear unabhängig ist.
Folgerung:
Ein j-facher Eigenwert hat also bis zu j linear unabhängige Eigenvektoren der Länge 1.
14.2. Flüsse in Graphen
Def D 14-3
Netzwerk und Flüsse
Ein Netzwerk ist ein Digraph (gerichteter Graph) mit höchstens einer Quelle q und einer
Senke s, in dem jeder Kante ji von j nach i genau eine Zahl cij  R≥0, ihre Kapazität, zugeordnet ist.
Ein (zulässiger) Fluss ist Kantenbelegung fij  R≥0, für die gilt
1. 0≤ fij ≤ cij
2. Kirchhoff'sches Gesetz: An jedem Knoten k ≠ q,s gilt:
 W. Konen
PageRank-Workshop-ext.doc
Seite 4
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
Fluss in den Knoten k  Fluss aus dem Knoten k
 fki
 fok

i
o
BEACHTE: Wir notieren hier die Kantenbewertung gerade andersherum als im Kapitel Graphentheorie: "von" steht hinten, "nach" vorne. Warum? – Damit in Termen wie
fki  A ki x i die Indizes, über die summiert wird, zusammenstehen.

i

i
Im PageRank-Anwendungsfall ist der Fluß fki  A ki x i die Menge an Bedeutung, die über
Link von i nach k übertragen wird. Wenn wir der Konvention folgen, dass die Summe aller
x i  1, dann ist cij=1 eine KapazitätsvorgaBedeutung im WWW Eins ergeben soll, also

i
be, die jede denkbare Bedeutungsübertragung zu einem gültigen Fluss macht (klar?).
14.3. Aufgaben zu PageRank-Paper [BryanLeise06]1
14.3.1.
Ü
Spaltenstochastische Matrix
Sei A eine spaltenstochastische Matrix (Summe jeder Spalte = 1). Sei die Norm eines Vektors x mit lauter nichtnegativen Einträgen definiert als N( x ) 
i 1 x i . Zeigen Sie: Die Matrix
n
A verändert die Norm nicht, d.h. in y=Ax hat y dieselbe Norm wie x.
14.3.2.
Ü
Link-Farm-Beispiel
Im Graph aus Fig. 2.1 aus [BryanLeise06]: Kann Owner 3 sein Ranking verbessern, wenn er
eine neue Page 5 kreiert, mit Links 53 und 35?
14.3.3.
(+) Die Theorie der Link-Farmen
Ü
Ow(n)
O
f
f
1
g
2
Link-Farm F
I
3
Iw(n)
(n Pages)
f
Web W
Zunächst gibt es nur das Web, das aus den Pages {1,2,3,g}=W besteht. (Die Seiten 1,2,3
stehen dabei nur stellvertretend für beliebige Webs W, es könnte genausogut
{1,2,....,M,g} = W mit beliebig großem M lauten. Wir wollen allerdings voraussetzen, dass
1
[BryanLeise06] K. Bryan, T. Leise: The $25,000,000,000-Eigenvector: The Linear Algebra Behind
Google. www.rose-hulman.edu/~bryan/googleFinalVersionFixed.pdf, to appear in SIAM Review; 2006.
 W. Konen
PageRank-Workshop-ext.doc
Seite 5
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
das Web keine unzusammenhängende Sub-Webs besitze, s. 14.4.1) Der Owner von g
will die Bewertung seiner Seite steigern und baut dazu eine Link-Farm F hinzu. Jede Page der Link-Farm F hat genau einen Outlink auf g und genau einen Inlink von g. Kann er
damit seine Bewertung steigern? Wenn ja, um wieviel?
Satz S 14-3
Link-Farm
In jedem Web W erhöht eine Link-Farm mit n Pages der oben geschilderten Form die
Bewertung der Seite g, und zwar kann mit steigendem n die Bewertung xg dem Grenzwert 0.5 beliebig nahe kommen. Genauer: Hat g ohne Link-Farm kw Outlinks und eine
Bewertung xg(0), dann ist ihre Bewertung mit Link-Farm:
xg 
kw  n
k w  2nx g
(0 )
x g( 0 )
Zeigen Sie diesen Satz entweder direkt (nicht ganz einfach!), oder folgen Sie den unten
dargestellten Einzelaufgaben, bei denen Sie am Ende von Punkt 6. dieser Satz S 14-3
bewiesen haben. Denken Sie daran, dass Sie Flüsse im Graphen durch die Web-Matrix
A darstellen können, z.B. O  A i, g x g .
Ü

iF
Dies zeigt auch sehr schön die mathematisch-analytische Herangehensweise an
Probleme: Hat man ein großes Problem, das man nicht in einem Rutsch lösen kann, so
versucht man, es in mehrere kleinere Teilaufgaben zu zerlegen. Die Formulierung der
Teilaufgaben ist oft schon der halbe Weg zum Ziel!
Genauso können Sie auch an diesen etwas größeren Beweis herangehen. Wenn Ihnen
Punkt (1.),(2.) erstmal zu schwer scheint, können Sie auch erstmal bei (3.) starten: Setzen Sie einfach (1.) und (2.) als gegeben voraus, und versuchen Sie daraus (3.) zu zeigen. Wenn es trotz hartnäckigem Grübeln nicht gelingt: Legen Sie die Aufgabe beiseite,
denken Sie nicht dran und versuchen Sie's am nächsten Morgen wieder. Manchmal gibt
Ihnen das Unterbewußtsein einen Tipp. Aber Sie müssen es vorher hart versucht haben.... ;-)
Alternativ (falls Sie mit dem Beweisen nicht weiterkommen): Schreiben Sie MapleRoutinen, die Satz S 14-3 bzw. die untenstehenden Punkte (1.)-(6.) auf Richtigkeit prüfen, möglichst für allgemeine Webs und beliebige Farm-Größe n.
Ein wenig Wissenschaftstheorie: Sie können mit einer Maple-Prozedur – die in diesem
Fall eine Simulation eines oder mehrerer möglichen Webs darstellt – natürlich nicht beweisen, dass ein Sachverhalt für alle Webs gilt. Aber es ist trotzdem nützlich: Denn Sie
können schauen, ob der Sachverhalt (Ihre Theorie, von der Sie vielleicht nicht 100%ig sicher sind, ob Sie sie richtig formuliert haben) überhaupt stimmen kann. D. h. es ist eine
notwendige Bedingung, dass der Sachverhalt in der Simulation eines oder mehrerer
Webs stimmt. Stimmt er da schon nicht, so haben Sie Ihre Theorie falsifiziert – und sich
die Mühe eines fruchtlosen Beweisversuches erspart. [eine der zentralen Forderungen,
die der Wissenschaftstheoretikers Sir Karl Popper an ein "gute" Theorie stellte: Sie
muss falsifizierbar sein.2]
Ich verwende die Simulation auch öfters für ein wenig "empirische Mathematik": Sie hilft
die sicher schlechten von den vielleicht guten Ideen und Gedanken abzutrennen.
Nun geht's also los:
2
Karl Popper, Logik der Forschung, 11. Aufl., Verlag Mohr Siebeck, Tübingen, 2005.
 W. Konen
PageRank-Workshop-ext.doc
Seite 6
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
(1.) Begründen Sie, warum der Input I in die Link-Farm im stationären Zustand gleich ihrem Output O sein muss. Begründen Sie, warum jede Farm-Page die gleiche Bewertung f haben muss. Leiten Sie damit her:
xg
f
 n  kw
worin xg
Bewertung der Page g, für die die Farm ist
f
Bewertung jeder Link-Farm-Page
n
Anzahl der Farm-Pages = Größe der Link-Farm
Anzahl der Links die Page g ins "richtige" Web W hat
kw
(Die Anzahl der Outlinks von Page g ist also Ng=n+kw)
(2.) Zeigen Sie: Der Anteil  ihrer Bewertung xg, den die Page g ins "richtige" Web W zurückspeist, geht für n   gegen Null, genauer

kw
n
  0
n kw
(3.) Begründen Sie, warum der Input Iw(n) von Page g ins "richtige" Web W im stationärem
Zustand gleich ihrem Output Ow(n) ins Web W sein muss. Dies gilt sowohl für den
Graph ohne Link-Farm (n=0) als auch für den Graph mit Link-Farm der Größe n.
(4.) Zeigen Sie: Für die Web-Pages i,j, die NICHT mit der Link-Farm verbunden sind, gilt:
Die relative Bewertung zueinander ändert sich nicht, d.h für alle i,jW \ {g} gilt
x i x i(0 )

x j x j(0 )
oder äquivalent
x i  ßx i (0 )
mit Konstante    
worin xi
Bewertung der Web-Page i bei Anwesenheit der Link-Farm,
Bewertung der Web-Page i ohne Link-Farm
xi(0)
(5.) Leiten Sie unter Verwendung der Ergebnisse (1.)-(4.) her: Für alle jW \ {g} gilt
ß
xj
x (j0 )

kwf
x g( 0 )
(6.) Zeigen Sie unter Verwendung der Ergebnisse (1.)-(5.) und einer zusätzlichen Eigenschaft, die für Bewertungen gilt:
xg 
kw  n
k w  2nx g
(0)
x g(0 )
Leiten Sie daraus die zentrale Aussage her: In einem Web, das nach dem vereinfachten PageRank-Verfahren bewertet wird, kann jede Page durch eine LinkFarm genügender Größe auf eine Bewertung geboostet werden, die nur beliebig
wenig von 0.5 abweicht.
Ü
Ein paar weitere (einfachere) Aufgaben:
(7.) Zeigen Sie: In jedem Web ist 0.5 die maximal erzielbare Bewertung.
(8.) Warum reicht im realen Web eine Link-Farm der Größe n=100 oder n=1000 meist
nicht aus, um die Seite g auf xg  1/2 hochzutreiben?
(9.) Meine Webpage hat eine verschwindend kleine, aber doch existente Bewertung im
WWW. Was muss ich tun, um die Bewertung meiner Webpage nach dem vereinfachten PageRank-Verfahren zu verdoppeln (zu verdreifachen)?
Abschließende Bemerkung: Denken Sie jetzt nicht, Sie könnten zuhause mal schnell eine
Link-Farm bauen und dann in Google fantastische Rankings erzielen. Man hat natürlich
 W. Konen
PageRank-Workshop-ext.doc
Seite 7
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
schon früh die potentielle Gefährdung durch Link-Farmen entdeckt und entsprechende Gegenmaßnahmen entwickelt (die meisten von ihnen hält Google natürlich geheim). Es ist z.B.
für die Web-Crawler möglich, anormale Substrukturen, die für Link-Farmen typisch sind (alle
zeigen auf einen und der zeigt auf alle), zu entdecken und die entsprechenden Subnetze
auszuschließen.
 W. Konen
PageRank-Workshop-ext.doc
Seite 8
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
14.4. PageRank: Praktische Probleme und praktische Lösungen
14.4.1.
Probleme
Der einfache PageRank-Algorithmus hat – jenseits der Frage, ob die durch ihn ermittelte
Bedeutung in jedem Fall fair ist – noch mindestens 3 praktische Probleme, die zum Glück gut
behoben werden können:
1. Dangling Nodes (Seiten, die keine Outlinks haben)
2. Webs, die aus nicht zusammenhängenden Sub-Webs bestehen
3. Das LGS A  E v  0 für das reale Web mit seinen Milliarden Seiten kann kaum
mit Gauss-Verfahren o.ä. gelöst werden, die Matrix passt in keinen Speicher.
Um die Problematik bei 1. und 2. zu verstehen, ist es besser sich die Bedeutungsübertragung als Markov-Prozess oder Markov-Kette vorzustellen: Ein Random Surfer sitzt mit
Wahrscheinlichkeit xk auf Page k mit Nk Outlinks und verlässt diese im nächsten Schritt zufällig über einen der Outlinks j von Page k, Wahrscheinlichkeit pjk = 1/Nk. Die Transitionsmatrix
A = (pjk) ist gerade unsere Link-Matrix A von oben.
Wenn wir viele Random Surfer nehmen und diese auf die Pages verteilen, dann entspricht
die Population (=Anzahl der Surfer) xk einer Page k gerade der Bedeutung dieser Seite. Unter bestimmten Vorausssetzung an die Markov-Kette stellt sich von jeder Startpopulation aus eine stationäre (zeitlich stabile) Populationsverteilung ein. Ein stationärer Zustand in den Populationen entspricht einem Eigenvektor der Matrix A zu Eigenwert 1.
14.4.2.
Lösungen
1. Das Problem mit den Dangling Nodes wird nun
klar: Die Random Surfer, die sich einmal auf
einer Seite ohne Outlinks (Nu=0) versammelt
haben, kommen nie mehr von dort weg. Die
Bedeutung wird nie mehr übertragen, das
Verfahren wird hinfällig (keine saubere MarkovKette mehr)
Abhilfe: Ersetzte jede Nullspalte (jede DanglingNode-Spalte) in Matrix A durch eine Spalte s mit
lauter 1/n:
0
 1/ n 
 


0
 1/ n 
 s   
 


0
 1/ n 
 


5
2
4
3
Node 3 ist Dangling Node (keine
Outlinks)
1
worin n die Anzahl aller Pages im Web ist. Die
neue Matrix nennen wir A'.
Interpretation: Der reale Random Surfer steuert
von einem Dangling Node irgendeine Seite an,
wir nehmen der Einfachheit halber die Gleichverteilung an.
2. Das Problem mit den Sub-Webs wird nun auch
klar: Gibt es nichtzusammenhängende SubWebs, so werden sich die Populationen nicht mi W. Konen
1
PageRank-Workshop-ext.doc
5
2
3
6
4
Sub-Web {1,5,6} hat keine Verbindung zu Sub-Web [2,3,4}
Seite 9
Prof. Dr. Wolfgang Konen
Workshop Mathematik, SS2007
25.06.2007
schen. Wenn in Sub-Web 1 nur 100 Random Surfer sind, in Sub-Web 2 aber 10.000,
so hat jede Page aus Sub-Web 2 automatisch eine 100mal so hohe "Bedeutung" wie
eine aus Sub-Web 1. Jedes andere Verhältnis läßt sich genauso realisieren. Mathematisch: Es gibt mehrere linear unabhängige Eigenvektoren zu Eigenwert 1 (s. Beispiel auf S. 4 oben in [BryanLeise06]).
Abhilfe: Ersetze die Matrix A' durch einen neue Matrix M mit
M  (1  m)A'mS
mit
 1/ n  1/ n 


S 
 
 1/ n  1/ n 


worin m ein Mischungsparameter ist, typischerweise wählt man m=0.15.
Interpretation: Der reale Random Surfer geht nicht immer, sondern nur mit Wahrscheinlichkeit (1-m) entlang der Outlinks weiter. Im Rest der Fälle, Wahrscheinlichkeit
m, verhält er sich völlig zufällig, d.h. er steuert irgendeine unter allen Web-Pages an.
Damit wird jedes Web zu einem zusammenhängenden Web, jede Random-SurferPopulation mischt sich durch.3
3. Wenn sich durch wiederholtes Anwenden der Markov-Kette die stationäre Verteilung
ergibt, dann können wir darüber, also über wiederholtes Anwenden von A bzw. M
auch den Eigenvektor x zum Eigenwert 1 berechnen:
x  lim Mr x 0
r 
Man startet also mit irgendeiner Ausgangspopulation x0 und wendet r-mal die Matrix
M an. In der Praxis ergeben meist r=20...100 Multiplikationen gute Werte.
Ü
Ü
Übung 4.1: Nehmen wir an, eine nxn Matrix A habe n linear unabhängige Eigenvektoren vi,
i=1..n, mit Eigenwerten |1|>|2||3|...|n|. Es gelte 1=1. Zeigen Sie: Für jeden Startvektor
x0 konvergiert die Folge {x0, x1, x2,... } mit xr= A r x0 gegen einen Vektor parallel zum Eigenvektor v1.
Übung 4.2: (a) Zeigen Sie: Die Matrixmultiplikation x'  Mx  (1  m)A'mS x kann vereinfacht berechnet werden durch x'  (1  m)A' x  m s (mit Vektor s aus Lösung 1) unter der
Voraussetzung dass
 x j  1 gilt.
j
[Das ist allerdings nur effizient für A'=A, wenn also A keine Dangling Nodes enthält]
(b) Zeigen Sie: Auch für den Fall mit Dangling Nodes kann x'  Mx  (1  m)A'mS x effizient durch folgenden pfiffigen Algorithmus berechnet werden (nach [Kamvar03]4)
1. y  (1  m)Ax
2. w  x
1
 y1
mit
z 1   z j (1-Norm)
j
3. x '  y  w s
(c) Wieso ist der Algo aus (b) für das reale Web mit seinen Milliarden Pages viel effizienter
zu berechnen als x' = Mx ?
3
In [BryanLeise06] wird mathematisch präzise gezeigt, dass die Matrix M zu Eigenwert 1 immer genau einen linear unabhängigen Eigenvektor besitzt, die Dimension des Eigenraums ist dim(V1)=1.
4
S. Kamvar, T. Haveliwala, G. Golub: Adaptive Methods for the Computation of PageRank (Stanford
Digital Library, 2003), http://dbpubs.stanford.edu.
 W. Konen
PageRank-Workshop-ext.doc
Seite 10
Prof. Dr. Wolfgang Konen
Ü
Workshop Mathematik, SS2007
25.06.2007
Übung 4.3: Können Sie begründen, unter Zuhilfenahme von Übung 4.2, dass die Methode
x  lim Mr x 0 zur Berechnung des Eigenvektors zum Eigenwert 1 viel effizienter ist als die
r 
Methode, das Gauss-Verfahren auf das LGS (M  E)x  0 anzuwenden?
Schätzen Sie hierzu die Komplexität beider Methoden ab! Zeigen Sie damit: Für typische
Werte (n=109 Web-Pages, jede habe im Mittel k=5 Outlinks und r =20) ist Methode 1 bis zu
5 Millionen mal schneller als Methode 2 (!)
 W. Konen
PageRank-Workshop-ext.doc
Seite 11
Herunterladen