Stemming

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Stemming – w wyszukiwaniu informacji oraz w morfologii (w językoznawstwie) jest to proces usunięcia ze słowa końcówki fleksyjnej pozostawiając tylko temat wyrazu. Proces stemmingu może być przeprowadzany w celu zmierzenia popularności danego słowa. Końcówki fleksyjne zaniżają faktyczne dane[1]. Algorytmy stemmingu są przedmiotem badań informatyki od latach 60. XX wieku. Pierwszy stemmer, czyli program do przeprowadzania procesu stemmingu, został napisany i opublikowany przez Julie Beth Lovins w 1968[2]. W czerwcu 1980 Martin Porter opublikował swój algorytm stemmingu, zwany Algorytmem Portera[3].

Np. angielskie słowa: „connection”, „connections”, „connective”, „connected”, „connecting” poddane stemmingowi dadzą ten sam wyniki, czyli słowo „connect”[4].

Przypisy

  1. Artur Prędki: Metody analityczne w naukach ekonomicznych - wybrane zastosowania. Kraków: Fundacja Uniwersytetu Ekonomicznego w Krakowie, 2016, s. 179. ISBN 978-83-941408-0-9.
  2. Julie Beth Lovins. Development of a Stemming Algorithm. „Mechanical Translation and Computational Linguistics”. 11, s. 22–31, 1968. 
  3. An algorithm for suffix stripping (ang.). tartarus.org. [dostęp 2017-05-25].
  4. Stemming Algorithms (ang.). xapian.org. [dostęp 2017-05-25].