Słowosieć

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Słowosieć (ang. wordnet) – baza danych leksykalno-semantycznych języka polskiego. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Słowosieć służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski.

Powstanie[edytuj | edytuj kod]

Słowosieć powstaje od 2005 roku na Politechnice Wrocławskiej[1]. Prace finansowane z funduszy Ministerstwa Nauki i Szkolnictwa Wyższego oraz ze środków unijnych prowadzi Grupa Technologii Językowych G4.19. Słownik jest budowany od podstaw przez leksykografów i specjalistów z dziedziny inżynierii języka naturalnego[2]. Pierwszą wersję Słowosieci opublikowano w 2009 roku - zawierała 20 223 lematy, 26 990 jednostek leksykalnych i 17 695 synsetów[3]. Wersja najnowsza, Słowosieć 2.2, dostępna jest od 13.05. 2014.

Zawartość[edytuj | edytuj kod]

Dane z dn. 30.05.2014.

Obecnie Słowosieć zawiera prawie 148 tys. lematów, 207 tys. jednostek leksykalnych oraz 151 tys. synsetów[4]. Pod względem liczby jednostek leksykalnych osiągnęła większy rozmiar niż Princeton WordNet, największy dotąd wordnet na świecie.

W Słowosieci znajdują się rzeczowniki (117 tys.), czasowniki (18 tys.) i przymiotniki (13 tys.)[4]. Każde znaczenie danego wyrazu to osobna jednostka leksykalna. Jednostki, które oznaczają to samo pojęcie, a nie różnią się istotnie rejestrem stylistycznym, zostały połączone w synsety, czyli zestawy synonimów.

Każda jednostka leksykalna przypisana jest do jednej z domen (kategorii semantycznych), wskazujących na jej ogólne znaczenie. Domeny odpowiadają lexicographers’ files WordNetu Princeton.

Kategorie semantyczne w Słowosieci[edytuj | edytuj kod]

Domeny rzeczownika[5] Domeny czasownika[6] Domeny przymiotnika[7]
  • bez hiperonimu (bhp)
  • cecha (cech)
  • cel (cel)
  • czas (czas)
  • część ciała (czc)
  • emocje (czuj)
  • czynność (czy)
  • grupa (grp)
  • ilość (il)
  • jedzenie (jedz)
  • kształt (ksz)
  • miejsce (msc)
  • osoba (os)
  • porozumiewanie się (por)
  • posiadanie (pos)
  • proces (prc)
  • roślina (rsl)
  • obiekt naturalny (rz)
  • substancja (sbst)
  • stan (st)
  • systematyka (sys)
  • myślenie (umy)
  • wytwór (wytw)
  • zdarzenie (zdarz)
  • zjawisko naturalne (zj)
  • zwierzę (zw)
  • relacja (zwz)
  • odczuwanie (cczuj)
  • jedzenie (cjedz)
  • porozumiewanie się (cpor)
  • posiadanie (cpos)
  • stan (cst)
  • myślenie (cumy)
  • wytwarzanie (cwytw)
  • kontakt fizyczny (dtk)
  • higiena (hig)
  • pogoda (pog)
  • postrzeganie (pst)
  • ruch (ruch)
  • życie społeczne (sp)
  • rywalizacja (wal)
  • zmiana (zmn)
  • przymiotnik odprzymiotnikowy (grad)
  • przymiotnik jakościowy (jak)
  • przymiotnik odczasownikowy (odcz)
  • przymiotnik relacyjny (rel)

Część jednostek leksykalnych opatrzona jest informacją o rejestrze stylistycznym, krótką definicją, przykładem użycia oraz linkiem do odpowiedniego artykułu w Wikipedii.

Informacje o jednostce leksykalnej[edytuj | edytuj kod]

Tabela przedstawia informacje o przykładowej jednostce - miasto uzyskane za pomocą narzędzia Słowosieci (Narzędzie).

rzeczownik

miasto

domena

miejsce i umiejscowienie

definicja

duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce życia ludzi pracujących w przemyśle lub usługach

przykład

W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo.

Najważniejszym elementem definiującym znaczenia są relacje językowe (leksykalno-semantyczne i derywacyjne), które łączą zarówno całe synsety (relacje synsetów), jak i pojedyncze jednostki leksykalne (relacje jednostek). We wspólnym synsecie znajdują się tylko takie jednostki leksykalne, które współdzielą zestaw relacji semantycznych[8]. Na podstawie relacji przypisanych do synsetów i jednostek leksykalnych możliwe jest zbudowanie narzędzia rozpoznającego, które znaczenie wyrazu występuje w tekście.

Wybrane relacje rzeczownika[edytuj | edytuj kod]

Tabela zawiera wykaz wybranych relacji rzeczownika[8].

Relacja Test Przykład
synonimia
  • Jeśli jest X-em, to jest też Y-em
  • Jeśli jest Y-em, to jest też X-em
{kot2; kot domowy1}
bliskoznaczność
  • X i Y mają ten sam hiperonim, zbiory ich hiponimów nie pokrywają się
  • X i Y nie są synonimami
  • Jeżeli jest X, to także jest Y [pomijając różnicę rejestrów stylistycznych]
  • Jeżeli jest Y, to także jest X [pomijając różnicę rejestrów stylistycznych]
{chłopiec1}, {gówniarz1}
hipo-/hiperonimia
  • Jeżeli ktoś/coś jest X-em, to musi być Y-em (X ⇒ Y)
  • Jeżeli ktoś/coś jest Y-em, to niekoniecznie jest X-em
  • Jeżeli ktoś/coś nie jest Y-em, to nie może być X-em
{buk1} jest rodzajem {drzewo liściaste1}
mero-/holonimia
  • X jest częścią Y
  • Y nie jest częścią X
  • Y jest całością, której częścią jest X
{poduszka powietrzna1} jest częścią {samochód1}

Polskie synsety są ponadto łączone z synsetami Princeton WordNet za pomocą zestawu relacji międzyjęzykowych, wskazujących na różnego rodzaju powiązania semantyczne (np. synonimię, synonimię częściową, hiponimię). Jak dotąd zrzutowanych zostało 91 578 synsetów (tj. ok. 2/3 synsetów Słowosieci, w tym głównie rzeczowniki)[9]. Rzutowanie umożliwia zastosowanie Słowosieci w tłumaczeniu maszynowym, np. jest ona wykorzystywana w tłumaczeniach oferowanych przez Tłumacz Google[10].

Zastosowania[edytuj | edytuj kod]

Słowosieć jest dostępna na licencji umożliwiającej jej bezpłatne przeglądanie. Użytkownikom udostępniana jest zarówno w postaci elektronicznego słownika online, jak i usługi sieciowej. Wybrane zastosowanie Słowosieci:

  • budowa i rozwijanie narzędzi do automatycznego przetwarzania języka,
  • ujednoznacznianie pojęć,
  • automatyczna klasyfikacja tekstów,
  • tłumaczenia automatyczne,
  • leczenie afazji,
  • słownik polsko-angielski i angielsko-polski,
  • semantyczny słownik języka polskiego,
  • słownik synonimów i wyrazów bliskoznacznych,
  • słownik antonimów.

Przypisy

  1. Maziarz M., Piasecki M., Szpakowicz S., Approaching plWordNet 2.0, http://web.archive.org/web/20140714140103/http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
  2. W odróżnieniu od wielu wordnetów, będących bezpośrednim tłumaczeniem struktury i zawartości pierwotnego WordNetu dla języka angielskiego (Princeton WordNet).
  3. Piasecki M., Szpakowicz S., Broda B., A Wordnet from the Ground Up, Wrocław 2009, s. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
  4. 4,0 4,1 Aktualne statystyki i szczegółowe porównanie można znaleźć na stronie Słowosieci: http://plwordnet.pwr.wroc.pl/wordnet/stats [dostęp: 30.06.2014]
  5. Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
  6. Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15-16.
  7. Maziarz M., Szpakowicz S., Piasecki M., Semantic Relations among Adjectives in Polish WordNet 2.0: A New Realtion Set, Discussion and Evaluation, Cognitive Studies / Études Cognitives, t. 12, s. 149–179, 2012.
  8. 8,0 8,1 Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Semantic Relations Among Nouns in Polish Wordnet Grounded in Lexicographic and Semantic Tradition, Cognitive Studies/Études Cognitives, t, 11, s. 161-181, 2011.
  9. http://plwordnet.pwr.wroc.pl/wordnet/stats [dostęp: 30.05.2014]
  10. http://translate.google.pl/about/intl/pl_ALL/