Słowosieć
Słowosieć (ang. PlWordNet) – baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Słowosieć służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski.
Powstanie[edytuj | edytuj kod]
Słowosieć powstaje od 2005 roku. Prace finansowane z funduszy Ministerstwa Nauki i Szkolnictwa Wyższego oraz ze środków unijnych prowadzi Centrum Technologii Językowych CLARIN-PL przy Katedrze Sztucznej Inteligencji Wydziału Informatyki i Komunikacji Politechniki Wrocławskiej[1]. Słownik jest budowany od podstaw przez leksykografów i specjalistów z dziedziny inżynierii języka naturalnego[2]. Pierwszą wersję Słowosieci opublikowano w 2009 roku – zawierała 20 223 lematy, 26 990 jednostek leksykalnych i 17 695 synsetów[3]. Słowosieć w wersji 4.0 dostępna jest od 2018 roku. Aktualnie dostępna jest wersja 4.2[4].
Zawartość[edytuj | edytuj kod]
Obecnie Słowosieć zawiera prawie 195 tys. lematów, 295 tys. jednostek leksykalnych oraz 228 tys. synsetów[4]. Pod względem liczby jednostek leksykalnych osiągnęła większy rozmiar niż Princeton WordNet, największy dotąd wordnet na świecie.
W Słowosieci znajdują się rzeczowniki (135 tys.), czasowniki (21 tys.), przymiotniki (29 tys.) i przysłówki (8 tys.)[4]. Każde znaczenie danego wyrazu to osobna jednostka leksykalna. Jednostki, które oznaczają to samo pojęcie, a nie różnią się istotnie rejestrem stylistycznym, zostały połączone w synsety, czyli zestawy synonimów.
Każda jednostka leksykalna przypisana jest do jednej z domen (kategorii semantycznych), wskazujących na jej ogólne znaczenie. Domeny odpowiadają lexicographers’ files WordNetu Princeton.
Kategorie semantyczne w Słowosieci[edytuj | edytuj kod]
Domeny rzeczownika[5] | Domeny czasownika[6] | Domeny przymiotnika[7] |
---|---|---|
|
|
|
Część jednostek leksykalnych opatrzona jest informacją o rejestrze stylistycznym, krótką definicją, przykładem użycia oraz linkiem do odpowiedniego artykułu w Wikipedii.
Informacje o jednostce leksykalnej[edytuj | edytuj kod]
Tabela przedstawia informacje o przykładowej jednostce – miasto uzyskane za pomocą narzędzia Słowosieci (Narzędzie).
Rzeczownik | Miasto |
---|---|
Domena | miejsce i umiejscowienie |
Kwalifikator | ogólny |
Definicja | duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce życia ludzi pracujących w przemyśle lub usługach. |
Przykład | W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo. |
Najważniejszym elementem definiującym znaczenia są relacje językowe (leksykalno-semantyczne i derywacyjne), które łączą zarówno całe synsety (relacje synsetów), jak i pojedyncze jednostki leksykalne (relacje jednostek). We wspólnym synsecie znajdują się tylko takie jednostki leksykalne, które współdzielą zestaw relacji semantycznych[8]. Na podstawie relacji przypisanych do synsetów i jednostek leksykalnych możliwe jest zbudowanie narzędzia rozpoznającego, które znaczenie wyrazu występuje w tekście.
Wybrane relacje rzeczownika[edytuj | edytuj kod]
Tabela zawiera wykaz wybranych relacji rzeczownika[8].
Relacja | Test | Przykład |
---|---|---|
synonimia |
|
{kot2; kot domowy1} |
bliskoznaczność |
|
{chłopiec1}, {gówniarz1} |
hipo-/hiperonimia |
|
{buk1} jest rodzajem {drzewo liściaste1} |
mero-/holonimia |
|
{poduszka powietrzna1} jest częścią {samochód1} |
Polskie synsety są ponadto łączone z synsetami Princeton WordNet za pomocą zestawu relacji międzyjęzykowych, wskazujących na różnego rodzaju powiązania semantyczne (np. synonimię, synonimię częściową, hiponimię). Jak dotąd zrzutowanych zostało 91 578 synsetów (tj. ok. 2/3 synsetów Słowosieci, w tym głównie rzeczowniki)[9]. Rzutowanie umożliwia zastosowanie Słowosieci w tłumaczeniu maszynowym, np. jest ona wykorzystywana w tłumaczeniach oferowanych przez Tłumacz Google[10]. Słowosieć łączona jest także ze słownikiem walencyjnym predykatów języka polskiego Walenty[11].
Zastosowania[edytuj | edytuj kod]
Słowosieć jest dostępna na licencji umożliwiającej jej bezpłatne przeglądanie. Użytkownikom udostępniana jest w postaci elektronicznego słownika online, aplikacji mobilnej i usługi sieciowej. Wybrane zastosowanie Słowosieci:
- budowa i rozwijanie narzędzi do automatycznego przetwarzania języka,
- ujednoznacznianie pojęć,
- automatyczna klasyfikacja tekstów,
- tłumaczenia automatyczne,
- leczenie afazji,
- słownik polsko-angielski i angielsko-polski,
- semantyczny słownik języka polskiego,
- słownik synonimów i wyrazów bliskoznacznych,
- słownik antonimów.
Przypisy[edytuj | edytuj kod]
- ↑ Maziarz M., Piasecki M., Szpakowicz S., Approaching plWordNet 2.0, https://web.archive.org/web/20140714140103/http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
- ↑ W odróżnieniu od wielu wordnetów, będących bezpośrednim tłumaczeniem struktury i zawartości pierwotnego WordNetu dla języka angielskiego (Princeton WordNet).
- ↑ Piasecki M., Szpakowicz S., Broda B., A Wordnet from the Ground Up, Wrocław 2009, s. 170, https://web.archive.org/web/20160107215910/http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf.
- ↑ a b c Aktualne statystyki i szczegółowe porównanie można znaleźć na stronie Słowosieci: http://plwordnet.pwr.wroc.pl/wordnet/stats [dostęp 2023-01-25].
- ↑ Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
- ↑ Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15–16.
- ↑ Maziarz M., Szpakowicz S., Piasecki M., Semantic Relations among Adjectives in Polish WordNet 2.0: A New Realtion Set, Discussion and Evaluation, Cognitive Studies / Études Cognitives, t. 12, s. 149–179, 2012.
- ↑ a b Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Semantic Relations Among Nouns in Polish Wordnet Grounded in Lexicographic and Semantic Tradition, Cognitive Studies/Études Cognitives, t, 11, s. 161–181, 2011.
- ↑ http://plwordnet.pwr.wroc.pl/wordnet/stats [dostęp 2014-05-30].
- ↑ Tłumacz Google od środka – Tłumacz Google [online], google.pl [dostęp 2024-04-26] [zarchiwizowane z adresu 2014-07-14] (pol.).
- ↑ E. Hajnicz, T. Bartosiak, Walencja rzeczowników w słowniku Walenty i sposób jej powiązania z walencją odpowiednich czasowników