Foswiki > NUMIS Web > TechniSches > InGridInstall > SeErsteinrichtung (2010-10-05, MartinKlenke) Konfiguration der Suchmaschine: Crawl-Parameter Der Logfile für den Indexer: /logs/hadoop.log Für Katalog- und Webindex muss jeweils ein eigenes SE-iPlug-Pärchen eingerichtet werden, beide können (und sollten sinnvollerweise) auf die gleiche Datenbank schauen. Um Instanzen und Crawls aus der Oberfläche zu löschen, müssen die zugehörigen Verzeichnisse auf dem Server gelöscht werden. Die Oberfläche gibt das nicht her. Fehlermeldungen wie die folgende in der console-index.log können ignoriert werden. Die laufen nur auf, weil die Datenbank schon existiert und der Prozess immer versucht, die datenbank anzulegen: Call: CREATE TABLE CRAWL (_ID BIGINT NOT NULL, PRIMARY KEY (_ID)) Query: DataModifyQuery(sql="CREATE TABLE CRAWL (_ID BIGINT NOT NULL, PRIMARY KEY (_ID))") [EL Warning]: 2010-10-01 16:16:05.858--ServerSession(1373945550)--Exception [EclipseLink-4002] (Eclipse Persistence Services - 1.2.0.v20 091016-r5565): org.eclipse.persistence.exceptions.DatabaseException Internal Exception: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'url' already exists Error Code: 1050 Webseiten-Indexer Der adaptive Webseitenindexer wird initial bei der Crawl-Erstellung auf Segmenttiefe 1 und 50.000 URLs eingestellt (Erfahrungswert). Das Scheduling sollte so eingestellt werden, dass alle 10 Minuten versucht wird einen neuen Crawl zu starten (passiert nur, wenn der alte abgeschlossen ist). Damit kommt es zu keiner "Zeitverschwendung" bei der Indexierung. Soll, z.B. um Serverlast zu verteilen, nur zu bestimmten Terminen/Intervallen gefetched werden, so ist das Scheduling entsprechend anzupassen. Konfigurationsparameter Webindex (Instanz - Konfiguration): Name Wert Beschreibung url.type web Es handelt sich um einen Webindex merge.after.fetch true Bewirkt beim Webindex, dass nach erstellen eines neuen Segments diese mit dem bestehenden gemerged wird. Reduziert Dubletten und Redundanzen. Name file.content.limit Wert Beschreibung 3145728 Datei-Größe, die maximal von einer Datei gefetched wird in Bytes. Verhindert, dass z.B. riesige PDFs komplett gefetched und geparsed werden. Content oberhalb der Grenze wird abgeschnitten. http.content.limit 3145728 Maximale Größe von Webseiteninhalt der gefetched wird in Bytes. Content oberhalb der Grenze wird abgeschnitten. db.fetch.interval.default 1209600 Sekunden zwischen Wieder-Fetch-Versuchen derselben Seite durch den Crawler (1209600 Sekunden entsprechen 14Tagen) db.max.inlinks 5000 Maximale Zahl eingehender Links für eine URL, die in der Link-Datenbank gespeichert werden. Weitere Inlinks werden nicht berücksichtigt. db.max.outlinks.per.page 200 Maximale Zahl ausgehender Links aus einer URL, die prozessiert werden. generate.max.per.host 50000 Die maximale Anzahl von URLs von einem Host in der Fetchliste. fetcher.server.min.delay 5 Sekunden zwischen einer erneuten Anfrage an einen Host. Damit läßt sich die "Agressivität" des Crawlers einstellen. fetcher.threads.per.host 3 Maximal erlaubte gleichzeitige Anzahl von Fetch-Prozessen auf dem selben angefragten Host. generate.max.per.host.by.ip false So erfolgt keine aufwendige Auflösung von Hostnamen zu IP-Adressen fetcher.threads.per.host.by.ip false Sollte den gleichen Wert haben wie generate.max.per.host.by.ip crawl.generate.filter false So werden nur die neu in die Crawl-DB aufzunehmenden URLs rausgefiltert. Das bringt Performance. fetcher.get.snsdata true Fetcher nutzt den SNS zur Indexierung index.sns true Mit true schreibt der Fetcher die von SNS gelieferten Zusatzinfos in den Index. Katalogseiten-Indexer Der Katalogindex wird einmal täglich des Nachts neu generiert. Im Unterschied zum Webindex wird nicht adaptiv gecrawlt, sondern eine feste Anzahl einzeln eingepflegter Seiten gefetched und indexiert. Eine Weiterverfolgung von Links findet nicht statt. Bei den folgenden Konfigurationsparametern sind nur die angegeben, die sich von den parametern für den Webindex unterscheiden! Konfigurationsparameter Katalogindex (Instanz - Konfiguration): Name Wert Beschreibung url.type catalog Es handelt sich um einen Katalogindex. db.fetch.interval.default 1 Der Wert muss so klein sein, weil sonst die URLs erst nach 30 Tagen (default) wieder gefetched werden. db.fetch.schedule.adaptive.sync_delta false Spielt nur beim adaptiven Indexieren eine Rolle. db.max.outlinks.per.page 0 Durch das setzen von 0 wird verhindert, dass neue URLs in der CrawlDB landen. Beim Katalogindex sollen nur die URLs aus der URL-Pflege gecrawlt werden. generate.max.per.host 20000 Wert sollte immer höher sein, als die maximale Zahl von URLs eines Hosts, die in der URL-Pflege eingetragen sind. MartinKlenke - 2010-10-05 Topic-Revision: r2 - 2010-10-05 - 09:59:28 - MartinKlenke Das Urheberrecht © liegt bei den mitwirkenden Autoren. Alle Inhalte dieser Kollaborations-Plattform sind Eigentum der Autoren. Ideen, Anfragen oder Probleme bezüglich Foswiki? Feedback senden