HITS

Z Wikipedii, wolnej encyklopedii

HITS (z ang. Hypertext Induced Topic Selection lub Hyperlink Induced Topic Search)[1]algorytm analizy linków(inne języki) (odnośników), który ocenia strony dokumentów powiązanych łączami, w szczególności dokumentów hipertekstowych[2]. Algorytm opracowany przez Jona Kleinberga(inne języki) w 1998 z myślą o silniku przeszukującym pod nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu[3].

Algorytm HITS zakłada, że dokumenty w zbiorze są ze sobą nawzajem połączone, tworząc pewnego rodzaju graf skierowany. W grafie tym węzłami są dokumenty, a krawędziami odnośniki. Krawędzie są skierowane w taki sposób, aby wskazywały na element cytowany, a wychodziły z elementu cytującego. Same założenia modelu wskazują na naturalne wykorzystanie go odnośnie do dokumentów hipertekstowych jako zawierających odnośniki (w tym także dokumentów w sieci WWW)[4].

Charakterystyka[edytuj | edytuj kod]

Algorytm HITS opiera się na dwóch ideach: autorytetu (ang. authority) i koncentratora (ang. hub). Dokumentem autorytatywnym (autorytetem) jest dokument cytowany wskazywany, taki, na który wskazuje wiele dokumentów (wiele dokumentów cytuje ten dokument). Koncentratorem jest dokument cytujący, który wskazuje na dokumenty autorytarne (dokument cytuje wiele ważnych dokumentów)[5].

Kleinberg(inne języki) opracował oparty na odnośnikach model nadawania autorytetu i pokazał jak prowadzi to do metody, która konsekwentnie identyfikuje zarazem relewantne i autorytatywne strony dla zapytania o szerokiej tematyce. Model bazuje na związku, który istnieje pomiędzy autorytetem w danym temacie a tymi stronami, które odsyłają do wielu powiązanych tematycznie autorytetów. Ten drugi typ stron został nazwany koncentratorami. Zaobserwowano, że pomiędzy autorytetami i koncentratorami istnieje pewna naturalna równowaga w grafie zdefiniowanym przez strukturę odnośników. Wykorzystano to do rozwinięcia algorytmu, który identyfikuje jednocześnie oba typy stron. Algorytm operuje na skupionym podgrafie, który został skonstruowany z listy wyników wyszukiwania tekstowej wyszukiwarki. Technika konstruowania podgrafu jest zaprojektowana do uzyskania małego zbioru stron, który najprawdopodobniej zawiera najbardziej autorytatywne strony dla danego tematu[3][5].

W trakcie obserwacji zauważono, że autorytatywne strony relewantne do początkowego zapytania powinny mieć nie tylko dużą liczbę odnośników, ale będąc autorytetami we wspólnym temacie, powinno istnieć znaczne pokrycie w zbiorze stron, które do nich odsyłają. Dlatego oprócz wyszukania wysoce autorytatywnych stron, spodziewano się znaleźć koncentratory, czyli strony, które mają odnośniki do wielu autorytatywnych stron. To właśnie koncentratory trzymają razem autorytety we wspólnym temacie i pozwalają pozbyć się niepowiązanych stron z dużą liczbą odnośników[3][5].

Koncentratory i autorytety wykazują wzajemny, obopólnie wzmacniający związek (ang. mutually reinforcing relationship). Dobry koncentrator to strona, która wskazuje do wielu dobrych autorytetów. Dobry autorytet to strona, która jest wskazywana przez wiele dobrych koncentratorów. Autor zauważył, że rezultaty uzyskane poprzez czystą analizę struktury odsyłaczy dają o wiele lepsze rezultaty, niż wyszukiwarki oparte na przeszukiwaniu tekstu. W tym przypadku zastąpiono globalną analizę całej struktury odsyłaczy w WWW bardziej lokalną metodą analizy małego skupionego podgrafu[3][5].

Algorytm skutecznie sprawdza się w szerokim zakresie tematów, gdzie najsilniejsze autorytety świadomie nie zawierają do siebie wzajemnych odnośników. Mogą one być połączone pośrednio przez warstwę relatywnie anonimowych koncentratorów, które są skorelowane i odsyłają do tematycznie powiązanych grup autorytetów. Ten dwupoziomowy wzór powiązań odsłania strukturę pośród obu zbiorów, koncentratorów, które mogą wzajemnie o sobie nie wiedzieć i autorytetów, które mogą nie chcieć pogodzić się z istnieniem innych autorytetów[3][5].

Ostatecznym wynikiem działania algorytmu jest lista węzłów i autorytetów z największymi współczynnikami poprawności[3][5].

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Hubs and Authorities [online], nlp.stanford.edu [dostęp 2024-02-29].
  2. Hubs, Authorities, and Communities [online], cs.brown.edu [dostęp 2024-02-29].
  3. a b c d e f Jon Kleinberg, Authoritative sources in a hyperlinked environment, [w:] Howard Karloff, Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, SIAM, 1998, s. 668-677, ISBN 978-0-89871-410-4 [dostęp 2024-02-29] (ang.).
  4. Hyunjoung Lee, Il Sohn, Fundamentals of Big Data Network Analysis for Research and Industry, John Wiley & Sons, 19 stycznia 2016, s. 88, ISBN 978-1-119-01558-1 [dostęp 2024-02-29] (ang.).
  5. a b c d e f Artur Strzelecki, Autorytatywne i eksperckie strony źródłem rzetelnych wyników w wyszukiwarkach internetowych, [w:] Jerzy Kisielnicki (red.), Informatyka dla przyszłości, Warszawa: Wydawnictwo Naukowe Wydziału Zarządzania Uniwersytetu Warszawskiego, 2008, s. 183-201, ISBN 978-83-61276-13-5 [dostęp 2024-02-29] [zarchiwizowane 2013-04-22] (pol.).

Literatura[edytuj | edytuj kod]

  • J. Kleinberg. Authoritative sources in a hyperlinked environment. In Proc. Ninth Ann. ACM-SIAM Symp. Discrete Algorithms, pages 668-677, ACM Press, New York, 1998. [1](PDF)
  • J. Kleinberg. Authoritative sources in a hyperlinked environment. In Journal of the ACM, 46(5), pages 604-632, 1999
  • A. Strzelecki. Autorytatywne i eksperckie strony źródłem rzetelnych wyników w wyszukiwarkach internetowych, [w:] Informatyka dla przyszłości, pod red. J. Kisielnicki, Wydawnictwo Naukowe Wydziału Zarządzania Uniwersytetu Warszawskiego, Warszawa 2008, s. 193-201 ISBN 978-83-61276-13-5 [2](PDF)