Konfiguration der Suchmaschine: Crawl-Parameter

Foswiki > NUMIS Web > TechniSches > InGridInstall > SeErsteinrichtung (2010-10-05, MartinKlenke)
Konfiguration der Suchmaschine: Crawl-Parameter
Der Logfile für den Indexer: /logs/hadoop.log
Für Katalog- und Webindex muss jeweils ein eigenes SE-iPlug-Pärchen eingerichtet werden, beide können (und sollten
sinnvollerweise) auf die gleiche Datenbank schauen.
Um Instanzen und Crawls aus der Oberfläche zu löschen, müssen die zugehörigen Verzeichnisse auf dem Server gelöscht
werden. Die Oberfläche gibt das nicht her.
Fehlermeldungen wie die folgende in der console-index.log können ignoriert werden. Die laufen nur auf, weil die Datenbank
schon existiert und der Prozess immer versucht, die datenbank anzulegen:
Call: CREATE TABLE CRAWL (_ID BIGINT NOT NULL, PRIMARY KEY (_ID))
Query: DataModifyQuery(sql="CREATE TABLE CRAWL (_ID BIGINT NOT NULL, PRIMARY KEY (_ID))")
[EL Warning]: 2010-10-01 16:16:05.858--ServerSession(1373945550)--Exception [EclipseLink-4002] (Eclipse Persistence Services - 1.2.0.v20
091016-r5565): org.eclipse.persistence.exceptions.DatabaseException
Internal Exception: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'url' already exists
Error Code: 1050
Webseiten-Indexer
Der adaptive Webseitenindexer wird initial bei der Crawl-Erstellung auf Segmenttiefe 1 und 50.000 URLs eingestellt (Erfahrungswert).
Das Scheduling sollte so eingestellt werden, dass alle 10 Minuten versucht wird einen neuen Crawl zu starten (passiert nur, wenn der
alte abgeschlossen ist). Damit kommt es zu keiner "Zeitverschwendung" bei der Indexierung. Soll, z.B. um Serverlast zu verteilen, nur
zu bestimmten Terminen/Intervallen gefetched werden, so ist das Scheduling entsprechend anzupassen.
Konfigurationsparameter Webindex (Instanz - Konfiguration):
Name
Wert
Beschreibung
url.type
web
Es handelt sich um einen Webindex
merge.after.fetch
true
Bewirkt beim Webindex, dass nach erstellen eines neuen Segments diese mit dem
bestehenden gemerged wird. Reduziert Dubletten und Redundanzen.
Name
file.content.limit
Wert
Beschreibung
3145728
Datei-Größe, die maximal von einer Datei gefetched wird in Bytes. Verhindert, dass
z.B. riesige PDFs komplett gefetched und geparsed werden. Content oberhalb der
Grenze wird abgeschnitten.
http.content.limit
3145728
Maximale Größe von Webseiteninhalt der gefetched wird in Bytes. Content oberhalb
der Grenze wird abgeschnitten.
db.fetch.interval.default
1209600
Sekunden zwischen Wieder-Fetch-Versuchen derselben Seite durch den Crawler
(1209600 Sekunden entsprechen 14Tagen)
db.max.inlinks
5000
Maximale Zahl eingehender Links für eine URL, die in der Link-Datenbank
gespeichert werden. Weitere Inlinks werden nicht berücksichtigt.
db.max.outlinks.per.page
200
Maximale Zahl ausgehender Links aus einer URL, die prozessiert werden.
generate.max.per.host
50000
Die maximale Anzahl von URLs von einem Host in der Fetchliste.
fetcher.server.min.delay
5
Sekunden zwischen einer erneuten Anfrage an einen Host. Damit läßt sich die
"Agressivität" des Crawlers einstellen.
fetcher.threads.per.host
3
Maximal erlaubte gleichzeitige Anzahl von Fetch-Prozessen auf dem selben
angefragten Host.
generate.max.per.host.by.ip
false
So erfolgt keine aufwendige Auflösung von Hostnamen zu IP-Adressen
fetcher.threads.per.host.by.ip
false
Sollte den gleichen Wert haben wie generate.max.per.host.by.ip
crawl.generate.filter
false
So werden nur die neu in die Crawl-DB aufzunehmenden URLs rausgefiltert. Das
bringt Performance.
fetcher.get.snsdata
true
Fetcher nutzt den SNS zur Indexierung
index.sns
true
Mit true schreibt der Fetcher die von SNS gelieferten Zusatzinfos in den Index.
Katalogseiten-Indexer
Der Katalogindex wird einmal täglich des Nachts neu generiert.
Im Unterschied zum Webindex wird nicht adaptiv gecrawlt, sondern eine feste Anzahl einzeln eingepflegter Seiten gefetched
und indexiert.
Eine Weiterverfolgung von Links findet nicht statt.
Bei den folgenden Konfigurationsparametern sind nur die angegeben, die sich von den parametern für den Webindex
unterscheiden!
Konfigurationsparameter Katalogindex (Instanz - Konfiguration):
Name
Wert
Beschreibung
url.type
catalog
Es handelt sich um einen Katalogindex.
db.fetch.interval.default
1
Der Wert muss so klein sein, weil sonst die URLs erst nach 30 Tagen
(default) wieder gefetched werden.
db.fetch.schedule.adaptive.sync_delta
false
Spielt nur beim adaptiven Indexieren eine Rolle.
db.max.outlinks.per.page
0
Durch das setzen von 0 wird verhindert, dass neue URLs in der CrawlDB
landen. Beim Katalogindex sollen nur die URLs aus der URL-Pflege
gecrawlt werden.
generate.max.per.host
20000
Wert sollte immer höher sein, als die maximale Zahl von URLs eines Hosts,
die in der URL-Pflege eingetragen sind.
MartinKlenke - 2010-10-05
Topic-Revision: r2 - 2010-10-05 - 09:59:28 - MartinKlenke
Das Urheberrecht © liegt bei den mitwirkenden Autoren. Alle Inhalte dieser Kollaborations-Plattform sind Eigentum der Autoren.
Ideen, Anfragen oder Probleme bezüglich Foswiki? Feedback senden