Sieć zindeksowana

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Surface Web - Część sieci WWW, która jest dostępna za pomocą indeksu wyszukiwania. Część sieci, która nie jest osiągalna w ten sposób nazywa się Deep Web. Wyszukiwarki budują własną bazę przy użyciu robów sieciowych - zaczynają najpierw od znanych im stron internetowych. Potem crawler dostaje kopię każdej strony i przechowuje o niej przydatne informacje, które pozwoli stronie zostać szybko pobrana przez niego ponownie później. Wszelkie hiperłącza do nowych stron są dodawane do listy stron, które mają być przeszukiwane. Ostatecznie wszystkie dostępne strony są indeksowane, chyba że crawlerowi zabraknie miejsca na dysku.

Z różnych powodów (np. przez Robots Exclusion Protocol, linki generowane przez JavaScript i Flash, ochrona hasłem) niektóre strony nie mogą zostać odnalezione przez crawlera. Te "niewidzialne" strony są określane jako Deep Web

Ze stanu 26 stycznia 2013 r. część zindeksowana zawierała przynajmniej 13.52 mld stron[1]

Inne poziomy[edytuj | edytuj kod]

Common Web to część stron znajdujących się w Surface Web, przeznaczona dla "przeciętnego kowalskiego". Znajdują się w niej najpopularniejsze strony jak YouTube, Facebook. Osoba przeglądająca Common Web najczęściej nie wchodzi na żadne inne strony.

Bergie Web to natomiast strony z całkiem nie do końca legalną działalnością, jednak dalej znajdujące się w treści zindeksowanej. Do tego poziomu zaliczamy m.in. warez, 4chan czy instrukcje tworzone pod przykrywką celów edukacyjnych.

Często strony zaliczane do bergie web chcą blokować rządy - np. dopalacze.com Większość jednak takich stron po zablokowaniu trafia do Deep Web.

Przypisy