Stop lista (wyszukiwarki)

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Stop listy (ang. Stop-Words) – lista słów odrzucanych przez wyszukiwarki internetowe w celu zredukowania wielkości zbiorów.

Są to słowa o małym znaczeniu (spójniki: i, oraz, lub) oraz słowa popularne (mp3, sex), czyli niewpływające na identyfikację dokumentu. Listy takie można utworzyć dla określonej dziedziny lub dla określonego języka. Istnieją stop-listy dla języka angielskiego, zawierające ok. 450 słów.

Usuwanie wyrazów nieznaczących z tekstu może się odbywać w następujący sposób:

  • słownikowy – z tekstu usuwane są wyrazy wymienione w specjalnym słowniku,
  • statystyczny – z tekstu usuwane są wyrazy, których częstość występowania znajduje się w założonym przedziale,
  • hybrydowy – połączenie powyższych technik.