Harvest (oprogramowanie)

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Harvest – kompletne rozwiązanie systemu indeksowania stron. Obecnie następcą Harvesta został silnik o nazwie Glimpse, zapewniający wyszukiwanie pełnotekstowe. System obsługuje wyszukiwanie boolowskie oraz zapytania złożone.

Harvest powstał w wyniku pracy doktorskiej w 1995 na Uniwersytecie w Arizonie. Generalnie składał się z dwóch komponentów: broker i gatherers. Gatherers przeszukiwał zdalne lub lokalne pliki, dając informacje o kolekcji lub o pojedynczym adresie URL. Pobierając informacje o dokumentach, tworzy strukturę plików, przechowującą informacje o nich, zwaną SOIF oraz GDBM. Broker to element indeksujący zbiory otrzymane w wyniku działania modułu pierwszego. Względnie broker mógł filtrować informacje i przesyłać go do swoich kopii w celu przyspieszenia procesu indeksowania.

Architektura ta jest wariantem architektury crawler-indexer, zaproponowanej w celu zmniejszenia obciążenia serwerów oraz sieci przez podział zadań i czasu pomiędzy crawlerów – nazywanych tu zbieraczami (ang. gatherers) i brokerów (ang. brokers) – odpowiedzialnych za dystrybucję danych. Jest to architektura zorientowana zadaniowo.