TFIDF
TFIDF (ang. TF – term frequency, IDF – inverse document frequency ) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów na podstawie liczby ich wystąpień[1], należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów[2].
Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwaniu informacji[3], w szczególności stosowany w wyszukiwarkach internetowych[4], kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.
Wartość TF-IDF oblicza się ze wzoru[3][4]:
gdzie to tzw. „term frequency”, wyrażana wzorem:
gdzie jest liczbą wystąpień termu w dokumencie a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie Wielkość to „inverse document frequency” wyrażana wzorem:
gdzie:
- – liczba dokumentów w korpusie,
- – liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.
Przypisy
[edytuj | edytuj kod]- ↑ Anand Rajaraman , Jeffrey David Ullman (red.), Data Mining, Cambridge: Cambridge University Press, 2011, s. 1–17, DOI: 10.1017/cbo9781139058452.002, ISBN 978-1-107-73741-9 [dostęp 2024-08-29] .
- ↑ Junzheng Wu , Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).
- ↑ a b Christopher D. Manning , Prabhakar Raghavan , Hinrich Schütze , Introduction to Information Retrieval, wyd. 1, Cambridge University Press, 7 lipca 2008, DOI: 10.1017/cbo9780511809071.007., ISBN 978-0-521-86571-5 [dostęp 2024-08-29] .
- ↑ a b Implementing the TF-IDF Search Engine