kritische Anmerkungen zu Google - SuMa

Werbung
© Dr. Holthausen GmbH 2007
Kontakt:
Dr. Holthausen GmbH
Kurfürstenstr. 38
46399 Bocholt
www.dr-holthausen.de
eMail: [email protected]
© Dr. Holthausen GmbH 2007
Die Technologie hinter dem Pagerank
Kritische Anmerkungen zu Google
20. September 2007
Dr. Klaus Holthausen
© Dr. Holthausen GmbH 2007
Ökologische Dimension der
Suchmaschinenoptimierung
SPIEGEL ONLINE:
„Einmal googlen entspricht einer Stunde Licht“
Welchen Effekt hätte eine Steigerung der Effizienz um
20 % bei der Internet-Recherche?
© Dr. Holthausen GmbH 2007
Ökologische Dimension der
Suchmaschinenoptimierung
Annahmen:
• 250 Millionen Suchanfragen täglich
• 320 g CO2/kWh (Basis: NRW)
• 350 m3 Holz/Hektar (Quelle: Landesforstinventar)
© Dr. Holthausen GmbH 2007
Tiergarten, Berlin
210 Hektar

Jährliches Biomasseäquivalent bei 20 %
Effizienzsteigerung
© Dr. Holthausen GmbH 2007
Google….
• Märchen: „Werbekunden sind in den Trefferlisten
besser platziert“
• Mythen: „Google Dance“ – sprunghafte Änderungen
der Platzierung einer Website im Laufe der Zeit
• Munteres: „Hommingberger Gepardenforelle“ –
ein Ranking-Wettbewerb der Zeitschrift c‘t
© Dr. Holthausen GmbH 2007
Wie funktioniert Google?
???
Veröffentlichte Patente sind Indizien dafür,
auf welche technischen Ansätze und
Prinzipien Google aufbaut.
© Dr. Holthausen GmbH 2007
Welche Seiten speichert Google von einer URL?
Welche Verweise auf eine URL speichert Google?
© Dr. Holthausen GmbH 2007
Ad-hoc-Score AHS= log( Anzahl_Sites * Anzahl_Links)
URL
# Sites
# Links
AHS
amazon.de
4060000
995000
12,606
spiegel.de
346000
22400
9,8893
zeit.de
424000
13400
9,7545
focus.de
233000
18000
9,6226
hotfrog.de
479000
6440
9,4892
aok.de
149000
2020
8,4785
25300
8790
8,3471
192000
1110
8,3286
spd.de
2060
3910
6,906
cdu.de
3470
1050
6,5615
475
1730
5,9147
17
3,3274
1
1,3979
uni-heidelberg.de
aerzteblatt.de
bayer.de
Verein
GmbH
125
© Dr. Holthausen GmbH 2007
25
Patent-Analyse: US 6.725.259
Krishna Bharat für Google Inc.
=> Reranking als wichtiges Verfahren zur
Suchmaschinenoptimierung
© Dr. Holthausen GmbH 2007
Patente sind Anleitungen
zur technischen Lehre und
umfassen ein Schritt-fürSchritt-Kochbuch zur
Umsetzung der Erfindung.
Die Funktionsweise wird
für einen sachverständigen
Dritten nachvollziehbar.
Quelle: Patent US 6.725.259
© Dr. Holthausen GmbH 2007
1.
Die ersten 1000 Treffer
werden ermittelt
2.
Für jeden Treffer x wird
ermittelt, welche Treffer
y auf x verweisen.
3.
Seiten mit ähnlicher IPAdresse wie Seite x
werden ausgeschlossen
(zum Beispiel: zeit.de hat
Adresse 217.13.68.162.
URLs 217.13.68.i werden
ausgeschlossen)
Quelle: Patent US 6.725.259
© Dr. Holthausen GmbH 2007
Jedem der 1000 Treffer y aus
der Menge B(y) ist ein
Relevanzwert (OldScore)
zugeordnet. Verweisen mehrere
Seiten einer Quelle (z.B.
arte.tv/thema/content.html)
auf eine Website x (z.B.
zdf.de/thema.content.html),
so wird nur die Seite mit der
höchsten Relevanz (Maximum
von OldScore) berücksichtigt.
© Dr. Holthausen GmbH 2007
Das verbleibende Trefferset B(y) enthält nur noch
Websites verschiedener Quellen. Diese werden nach
OldScore sortiert.
Nur die Top-20-Treffer (k=20) werden berücksichtigt.
Die Menge BackSet(i) umfasst diese Treffer, wobei der
Parameter i von 1 bis 20 geht.
Die Summe der Quadrate (m=2) von OldScore werden
aufsummiert:
Summe über i von (OldScore(i) * OldScore(i)).
Diese Summe wird als Parameter LocalScore(x)
gespeichert.
© Dr. Holthausen GmbH 2007
Letzter Schritt: Das eigentliche Reranking bedeutet die Zuweisung
eines neuen Relevanzwertes (NewScore) auf der Basis von OldScore
und LocalScore.
NewScore(x) =
(1+ OldScore(x)/MaxOS) * (1 + LocalScore(x)/MaxLS)
Eigenschaften: Jede Klammer enthält einen Wert zwischen 1 und 2,
damit liegt das Produkt in der Spanne zwischen 1 und 4.
Quelle: Patent US 6.725.259
© Dr. Holthausen GmbH 2007
Bitte respektieren Sie das geistige Eigentum der Firma Google Inc.
Nehmen Sie keine Suchmaschine in Betrieb, die das Verfahren aus
US 6.725.259 implementiert.
© Dr. Holthausen GmbH 2007
Experiment
Simulation der Auswirkung des Reranking-Verfahrens
Modell-Annahmen:
„Verein“: AHS zwischen 2.5 und 4.0
„GmbH“: AHS < 2.5
Wahrscheinlichkeit eines externen Links proportional zum
AHS.
 Resultate als Excel-Tabelle
© Dr. Holthausen GmbH 2007
Patent US 6.285.999
Lawrence Page
Definition des
PageRank
 Rekursive
Definition: PageRank
hängt vom PageRank
der verweisenden
Seiten ab.
© Dr. Holthausen GmbH 2007
Die rekursive Definition führt zu
einem Gleichungssystem:
1. r(A) = r(C)
2. r(B) = r(A)/2
(Von A gehen zwei Links aus)
3. r(C) = r(B) + r(A)/2
© Dr. Holthausen GmbH 2007
Lawrence Page, 9. Januar 1998
„In practice, there are millions of documents and it is not
possible to find the solution to a million equations by
inspection. Accordingsly, in the preferred embodiment a simple
iterative procedure is used. … In the case of millions of
documents, sufficient convergence typically takes on the order
of 100 iterations.“ (US 6.285.999)
© Dr. Holthausen GmbH 2007
Eugene Garfield (* 1925)
Begründer des Science Citation Index
© Dr. Holthausen GmbH 2007
© Dr. Holthausen GmbH 2007
Ein echter
Urgroßvater des
Internet…
© Dr. Holthausen GmbH 2007
Alternativer Ansatz zum Ranking / ReRanking:
Assoziative Verknüpfung von Inhalten
© Dr. Holthausen GmbH 2007
© Dr. Holthausen GmbH 2007
© Dr. Holthausen GmbH 2007
© Dr. Holthausen GmbH 2007
© Dr. Holthausen GmbH 2007
Herunterladen