Słowosieć

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Słowosieć (ang. PlWordNet) – baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Słowosieć służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski.

Powstanie[edytuj | edytuj kod]

Słowosieć powstaje od 2005 roku. Prace finansowane z funduszy Ministerstwa Nauki i Szkolnictwa Wyższego oraz ze środków unijnych prowadzi Centrum Technologii Językowych CLARIN-PL przy Katedrze Sztucznej Inteligencji Wydziału Informatyki i Komunikacji Politechniki Wrocławskiej[1]. Słownik jest budowany od podstaw przez leksykografów i specjalistów z dziedziny inżynierii języka naturalnego[2]. Pierwszą wersję Słowosieci opublikowano w 2009 roku – zawierała 20 223 lematy, 26 990 jednostek leksykalnych i 17 695 synsetów[3]. Słowosieć w wersji 4.0 dostępna jest od 2018 roku. Aktualnie dostępna jest wersja 4.2[4].

Zawartość[edytuj | edytuj kod]

Dane z dn. 30.05.2014

Obecnie Słowosieć zawiera prawie 195 tys. lematów, 295 tys. jednostek leksykalnych oraz 228 tys. synsetów[4]. Pod względem liczby jednostek leksykalnych osiągnęła większy rozmiar niż Princeton WordNet, największy dotąd wordnet na świecie.

W Słowosieci znajdują się rzeczowniki (135 tys.), czasowniki (21 tys.), przymiotniki (29 tys.) i przysłówki (8 tys.)[4]. Każde znaczenie danego wyrazu to osobna jednostka leksykalna. Jednostki, które oznaczają to samo pojęcie, a nie różnią się istotnie rejestrem stylistycznym, zostały połączone w synsety, czyli zestawy synonimów.

Każda jednostka leksykalna przypisana jest do jednej z domen (kategorii semantycznych), wskazujących na jej ogólne znaczenie. Domeny odpowiadają lexicographers’ files WordNetu Princeton.

Kategorie semantyczne w Słowosieci[edytuj | edytuj kod]

Domeny rzeczownika[5] Domeny czasownika[6] Domeny przymiotnika[7]
 • bez hiperonimu (bhp)
 • cecha (cech)
 • cel (cel)
 • czas (czas)
 • część ciała (czc)
 • emocje (czuj)
 • czynność (czy)
 • grupa (grp)
 • ilość (il)
 • jedzenie (jedz)
 • kształt (ksz)
 • miejsce (msc)
 • osoba (os)
 • porozumiewanie się (por)
 • posiadanie (pos)
 • proces (prc)
 • roślina (rsl)
 • obiekt naturalny (rz)
 • substancja (sbst)
 • stan (st)
 • systematyka (sys)
 • myślenie (umy)
 • wytwór (wytw)
 • zdarzenie (zdarz)
 • zjawisko naturalne (zj)
 • zwierzę (zw)
 • relacja (zwz)
 • odczuwanie (cczuj)
 • jedzenie (cjedz)
 • porozumiewanie się (cpor)
 • posiadanie (cpos)
 • stan (cst)
 • myślenie (cumy)
 • wytwarzanie (cwytw)
 • kontakt fizyczny (dtk)
 • higiena (hig)
 • pogoda (pog)
 • postrzeganie (pst)
 • ruch (ruch)
 • życie społeczne (sp)
 • rywalizacja (wal)
 • zmiana (zmn)
 • przymiotnik odprzymiotnikowy (grad)
 • przymiotnik jakościowy (jak)
 • przymiotnik odczasownikowy (odcz)
 • przymiotnik relacyjny (rel)

Część jednostek leksykalnych opatrzona jest informacją o rejestrze stylistycznym, krótką definicją, przykładem użycia oraz linkiem do odpowiedniego artykułu w Wikipedii.

Informacje o jednostce leksykalnej[edytuj | edytuj kod]

Tabela przedstawia informacje o przykładowej jednostce – miasto uzyskane za pomocą narzędzia Słowosieci (Narzędzie).

Rzeczownik Miasto
Domena miejsce i umiejscowienie
Kwalifikator ogólny
Definicja duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce życia ludzi pracujących w przemyśle lub usługach.
Przykład W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo.

Najważniejszym elementem definiującym znaczenia są relacje językowe (leksykalno-semantyczne i derywacyjne), które łączą zarówno całe synsety (relacje synsetów), jak i pojedyncze jednostki leksykalne (relacje jednostek). We wspólnym synsecie znajdują się tylko takie jednostki leksykalne, które współdzielą zestaw relacji semantycznych[8]. Na podstawie relacji przypisanych do synsetów i jednostek leksykalnych możliwe jest zbudowanie narzędzia rozpoznającego, które znaczenie wyrazu występuje w tekście.

Wybrane relacje rzeczownika[edytuj | edytuj kod]

Tabela zawiera wykaz wybranych relacji rzeczownika[8].

Relacja Test Przykład
synonimia
 • Jeśli jest X-em, to jest też Y-em
 • Jeśli jest Y-em, to jest też X-em
{kot2; kot domowy1}
bliskoznaczność
 • X i Y mają ten sam hiperonim, zbiory ich hiponimów nie pokrywają się
 • X i Y nie są synonimami
 • Jeżeli jest X, to także jest Y [pomijając różnicę rejestrów stylistycznych]
 • Jeżeli jest Y, to także jest X [pomijając różnicę rejestrów stylistycznych]
{chłopiec1}, {gówniarz1}
hipo-/hiperonimia
 • Jeżeli ktoś/coś jest X-em, to musi być Y-em (X ⇒ Y)
 • Jeżeli ktoś/coś jest Y-em, to niekoniecznie jest X-em
 • Jeżeli ktoś/coś nie jest Y-em, to nie może być X-em
{buk1} jest rodzajem {drzewo liściaste1}
mero-/holonimia
 • X jest częścią Y
 • Y nie jest częścią X
 • Y jest całością, której częścią jest X
{poduszka powietrzna1} jest częścią {samochód1}

Polskie synsety są ponadto łączone z synsetami Princeton WordNet za pomocą zestawu relacji międzyjęzykowych, wskazujących na różnego rodzaju powiązania semantyczne (np. synonimię, synonimię częściową, hiponimię). Jak dotąd zrzutowanych zostało 91 578 synsetów (tj. ok. 2/3 synsetów Słowosieci, w tym głównie rzeczowniki)[9]. Rzutowanie umożliwia zastosowanie Słowosieci w tłumaczeniu maszynowym, np. jest ona wykorzystywana w tłumaczeniach oferowanych przez Tłumacz Google[10]. Słowosieć łączona jest także ze słownikiem walencyjnym predykatów języka polskiego Walenty[11].

Zastosowania[edytuj | edytuj kod]

Słowosieć jest dostępna na licencji umożliwiającej jej bezpłatne przeglądanie. Użytkownikom udostępniana jest w postaci elektronicznego słownika online, aplikacji mobilnej i usługi sieciowej. Wybrane zastosowanie Słowosieci:

 • budowa i rozwijanie narzędzi do automatycznego przetwarzania języka,
 • ujednoznacznianie pojęć,
 • automatyczna klasyfikacja tekstów,
 • tłumaczenia automatyczne,
 • leczenie afazji,
 • słownik polsko-angielski i angielsko-polski,
 • semantyczny słownik języka polskiego,
 • słownik synonimów i wyrazów bliskoznacznych,
 • słownik antonimów.

Przypisy[edytuj | edytuj kod]

 1. Maziarz M., Piasecki M., Szpakowicz S., Approaching plWordNet 2.0, https://web.archive.org/web/20140714140103/http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
 2. W odróżnieniu od wielu wordnetów, będących bezpośrednim tłumaczeniem struktury i zawartości pierwotnego WordNetu dla języka angielskiego (Princeton WordNet).
 3. Piasecki M., Szpakowicz S., Broda B., A Wordnet from the Ground Up, Wrocław 2009, s. 170, https://web.archive.org/web/20160107215910/http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf.
 4. a b c Aktualne statystyki i szczegółowe porównanie można znaleźć na stronie Słowosieci: http://plwordnet.pwr.wroc.pl/wordnet/stats [dostęp 2023-01-25].
 5. Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
 6. Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15–16.
 7. Maziarz M., Szpakowicz S., Piasecki M., Semantic Relations among Adjectives in Polish WordNet 2.0: A New Realtion Set, Discussion and Evaluation, Cognitive Studies / Études Cognitives, t. 12, s. 149–179, 2012.
 8. a b Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Semantic Relations Among Nouns in Polish Wordnet Grounded in Lexicographic and Semantic Tradition, Cognitive Studies/Études Cognitives, t, 11, s. 161–181, 2011.
 9. http://plwordnet.pwr.wroc.pl/wordnet/stats [dostęp 2014-05-30].
 10. https://web.archive.org/web/20140714163551/http://translate.google.pl/about/intl/pl_ALL/.
 11. E. Hajnicz, T. Bartosiak, Walencja rzeczowników w słowniku Walenty i sposób jej powiązania z walencją odpowiednich czasowników