Stop lista (wyszukiwarki)

Z Wikipedii, wolnej encyklopedii

Stop lista (ang. stop word) – lista słów odrzucanych przez wyszukiwarki internetowe w celu zredukowania wielkości zbiorów.

Są to słowa o małym znaczeniu (spójniki: i, oraz, lub) oraz słowa popularne (mp3, sex), czyli niewpływające na identyfikację dokumentu. Listy takie można utworzyć dla określonej dziedziny lub dla określonego języka. Istnieją stop-listy dla języka angielskiego, zawierające ok. 450 słów.

Usuwanie wyrazów nieznaczących z tekstu może się odbywać w następujący sposób:

  • słownikowy – z tekstu usuwane są wyrazy wymienione w specjalnym słowniku,
  • statystyczny – z tekstu usuwane są wyrazy, których częstość występowania znajduje się w założonym przedziale,
  • hybrydowy – połączenie powyższych technik.

Linki zewnętrzne[edytuj | edytuj kod]