Indeksowanie stron

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Indeksowanie stron – proces analizy dokumentów dostępnych w World Wide Web (np. w formatach HTML, PDF) przez specjalny program komputerowy nazywany robotem indeksującym. Polega na gromadzeniu danych o występujących w dokumentach wyrazach i innych treściach (np. grafikach), które umieszcza się w wydajnych bazach danych umożliwiających późniejsze szybkie wyszukiwanie wyrazów i fraz bez konieczności ponownego analizowania i przeszukiwania źródłowych dokumentów. To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie[1].

Robot indeksujący porusza się po stronach internetowych na wiele sposobów. Na konkretny adres URL program może trafić przy pomocy linków. W przypadku wyszukiwarki Google możliwa jest także implementacja mapy witryny do narzędzia Google Search Console. Wówczas robot indeksujący odwiedza witrynę, analizuje ją i pobiera zasoby do indeksu. Następnie strona internetowa może wyświetlać się w wynikach wyszukiwania. Jeżeli adres URL nie zostanie zaindeksowany, konkretna podstrona nie będzie wyświetlana na zapytanie użytkownika[2].

Blokowanie indeksowania[edytuj | edytuj kod]

Nie każdy adres URL w obrębie domeny powinien być indeksowany przez wyszukiwarkę. Przykładem są koszyki w sklepach internetowych, a także zasoby wyświetlane dopiero po zalogowaniu na konkretny portal internetowy. Dlatego administrator domeny może zablokować indeksowanie wybranych adresów URL. W tym celu umieszcza się w sekcji <head> strony internetowej atrybut noindex[3].

Robot indeksujący może być również poinformowany o tym, aby nie indeksować danego adresu URL przy pomocy pliku robots.txt[4].

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Wprowadzenie do indeksowania | Centrum wyszukiwarki Google | Dokumentacja, Google Developers [dostęp 2022-06-21] (pol.).
  2. Co to jest mapa witryny | Centrum wyszukiwarki Google | Dokumentacja, Google Developers [dostęp 2022-06-21] (pol.).
  3. Noindex – czyli jak blokować indeksowanie? | Semcore [dostęp 2022-06-21] (pol.).
  4. Robots.txt - Everything SEOs Need to Know, Deepcrawl [dostęp 2022-06-21] (ang.).