© Dr. Holthausen GmbH 2007 Kontakt: Dr. Holthausen GmbH Kurfürstenstr. 38 46399 Bocholt www.dr-holthausen.de eMail: [email protected] © Dr. Holthausen GmbH 2007 Die Technologie hinter dem Pagerank Kritische Anmerkungen zu Google 20. September 2007 Dr. Klaus Holthausen © Dr. Holthausen GmbH 2007 Ökologische Dimension der Suchmaschinenoptimierung SPIEGEL ONLINE: „Einmal googlen entspricht einer Stunde Licht“ Welchen Effekt hätte eine Steigerung der Effizienz um 20 % bei der Internet-Recherche? © Dr. Holthausen GmbH 2007 Ökologische Dimension der Suchmaschinenoptimierung Annahmen: • 250 Millionen Suchanfragen täglich • 320 g CO2/kWh (Basis: NRW) • 350 m3 Holz/Hektar (Quelle: Landesforstinventar) © Dr. Holthausen GmbH 2007 Tiergarten, Berlin 210 Hektar Jährliches Biomasseäquivalent bei 20 % Effizienzsteigerung © Dr. Holthausen GmbH 2007 Google…. • Märchen: „Werbekunden sind in den Trefferlisten besser platziert“ • Mythen: „Google Dance“ – sprunghafte Änderungen der Platzierung einer Website im Laufe der Zeit • Munteres: „Hommingberger Gepardenforelle“ – ein Ranking-Wettbewerb der Zeitschrift c‘t © Dr. Holthausen GmbH 2007 Wie funktioniert Google? ??? Veröffentlichte Patente sind Indizien dafür, auf welche technischen Ansätze und Prinzipien Google aufbaut. © Dr. Holthausen GmbH 2007 Welche Seiten speichert Google von einer URL? Welche Verweise auf eine URL speichert Google? © Dr. Holthausen GmbH 2007 Ad-hoc-Score AHS= log( Anzahl_Sites * Anzahl_Links) URL # Sites # Links AHS amazon.de 4060000 995000 12,606 spiegel.de 346000 22400 9,8893 zeit.de 424000 13400 9,7545 focus.de 233000 18000 9,6226 hotfrog.de 479000 6440 9,4892 aok.de 149000 2020 8,4785 25300 8790 8,3471 192000 1110 8,3286 spd.de 2060 3910 6,906 cdu.de 3470 1050 6,5615 475 1730 5,9147 17 3,3274 1 1,3979 uni-heidelberg.de aerzteblatt.de bayer.de Verein GmbH 125 © Dr. Holthausen GmbH 2007 25 Patent-Analyse: US 6.725.259 Krishna Bharat für Google Inc. => Reranking als wichtiges Verfahren zur Suchmaschinenoptimierung © Dr. Holthausen GmbH 2007 Patente sind Anleitungen zur technischen Lehre und umfassen ein Schritt-fürSchritt-Kochbuch zur Umsetzung der Erfindung. Die Funktionsweise wird für einen sachverständigen Dritten nachvollziehbar. Quelle: Patent US 6.725.259 © Dr. Holthausen GmbH 2007 1. Die ersten 1000 Treffer werden ermittelt 2. Für jeden Treffer x wird ermittelt, welche Treffer y auf x verweisen. 3. Seiten mit ähnlicher IPAdresse wie Seite x werden ausgeschlossen (zum Beispiel: zeit.de hat Adresse 217.13.68.162. URLs 217.13.68.i werden ausgeschlossen) Quelle: Patent US 6.725.259 © Dr. Holthausen GmbH 2007 Jedem der 1000 Treffer y aus der Menge B(y) ist ein Relevanzwert (OldScore) zugeordnet. Verweisen mehrere Seiten einer Quelle (z.B. arte.tv/thema/content.html) auf eine Website x (z.B. zdf.de/thema.content.html), so wird nur die Seite mit der höchsten Relevanz (Maximum von OldScore) berücksichtigt. © Dr. Holthausen GmbH 2007 Das verbleibende Trefferset B(y) enthält nur noch Websites verschiedener Quellen. Diese werden nach OldScore sortiert. Nur die Top-20-Treffer (k=20) werden berücksichtigt. Die Menge BackSet(i) umfasst diese Treffer, wobei der Parameter i von 1 bis 20 geht. Die Summe der Quadrate (m=2) von OldScore werden aufsummiert: Summe über i von (OldScore(i) * OldScore(i)). Diese Summe wird als Parameter LocalScore(x) gespeichert. © Dr. Holthausen GmbH 2007 Letzter Schritt: Das eigentliche Reranking bedeutet die Zuweisung eines neuen Relevanzwertes (NewScore) auf der Basis von OldScore und LocalScore. NewScore(x) = (1+ OldScore(x)/MaxOS) * (1 + LocalScore(x)/MaxLS) Eigenschaften: Jede Klammer enthält einen Wert zwischen 1 und 2, damit liegt das Produkt in der Spanne zwischen 1 und 4. Quelle: Patent US 6.725.259 © Dr. Holthausen GmbH 2007 Bitte respektieren Sie das geistige Eigentum der Firma Google Inc. Nehmen Sie keine Suchmaschine in Betrieb, die das Verfahren aus US 6.725.259 implementiert. © Dr. Holthausen GmbH 2007 Experiment Simulation der Auswirkung des Reranking-Verfahrens Modell-Annahmen: „Verein“: AHS zwischen 2.5 und 4.0 „GmbH“: AHS < 2.5 Wahrscheinlichkeit eines externen Links proportional zum AHS. Resultate als Excel-Tabelle © Dr. Holthausen GmbH 2007 Patent US 6.285.999 Lawrence Page Definition des PageRank Rekursive Definition: PageRank hängt vom PageRank der verweisenden Seiten ab. © Dr. Holthausen GmbH 2007 Die rekursive Definition führt zu einem Gleichungssystem: 1. r(A) = r(C) 2. r(B) = r(A)/2 (Von A gehen zwei Links aus) 3. r(C) = r(B) + r(A)/2 © Dr. Holthausen GmbH 2007 Lawrence Page, 9. Januar 1998 „In practice, there are millions of documents and it is not possible to find the solution to a million equations by inspection. Accordingsly, in the preferred embodiment a simple iterative procedure is used. … In the case of millions of documents, sufficient convergence typically takes on the order of 100 iterations.“ (US 6.285.999) © Dr. Holthausen GmbH 2007 Eugene Garfield (* 1925) Begründer des Science Citation Index © Dr. Holthausen GmbH 2007 © Dr. Holthausen GmbH 2007 Ein echter Urgroßvater des Internet… © Dr. Holthausen GmbH 2007 Alternativer Ansatz zum Ranking / ReRanking: Assoziative Verknüpfung von Inhalten © Dr. Holthausen GmbH 2007 © Dr. Holthausen GmbH 2007 © Dr. Holthausen GmbH 2007 © Dr. Holthausen GmbH 2007 © Dr. Holthausen GmbH 2007