Stemming

Z Wikipedii, wolnej encyklopedii

Stemming – w wyszukiwaniu informacji oraz w morfologii (w językoznawstwie) jest to proces usunięcia ze słowa końcówki fleksyjnej pozostawiający tylko temat wyrazu. Proces stemmingu może być przeprowadzany w celu zmierzenia popularności danego słowa. Końcówki fleksyjne zaniżają faktyczne dane[1]. Algorytmy stemmingu są przedmiotem badań informatyki od lat 60. XX wieku. Pierwszy stemmer, czyli program do przeprowadzania procesu stemmingu, został napisany i opublikowany przez Julie Beth Lovins w 1968[2]. W czerwcu 1980 Martin Porter opublikował swój algorytm stemmingu, zwany Algorytmem Portera[3].

Np. angielskie słowa: „connection”, „connections”, „connective”, „connected”, „connecting” poddane stemmingowi dadzą ten sam wynik, czyli słowo „connect”[4].

Przypisy[edytuj | edytuj kod]

  1. Artur Prędki: Metody analityczne w naukach ekonomicznych - wybrane zastosowania. Kraków: Fundacja Uniwersytetu Ekonomicznego w Krakowie, 2016, s. 179. ISBN 978-83-941408-0-9.
  2. Julie Beth Lovins. Development of a Stemming Algorithm. „Mechanical Translation and Computational Linguistics”. 11, s. 22–31, 1968. 
  3. An algorithm for suffix stripping. tartarus.org. [dostęp 2017-05-25]. (ang.).
  4. Stemming Algorithms. xapian.org. [dostęp 2017-05-25]. (ang.).