CLARIN-PL

CLARIN-PL
Common Language Resources and Technology Infrastructure
Wspólne Zasoby Językowe i Infrastruktura Technologiczna
Państwo	Polska
Data utworzenia	2013
Siedziba	Katedra Sztucznej Inteligencji, Politechnika Wrocławska
Koordynator	dr hab. inż. Maciej Piasecki
	Adres
	Politechnika Wrocławska, bud. D-21; Wybrzeże Wyspiańskiego 27; 50-370 Wrocław
	Położenie na mapie Polski CLARIN-PL
	Położenie na mapie województwa dolnośląskiego CLARIN-PL
	Położenie na mapie Wrocławia CLARIN-PL
	51°06′35,0″N 17°03′27,7″E/51,109722 17,057694
	Strona internetowa

CLARIN-PL – powstałe w 2013 roku polskie konsorcjum naukowe należące do europejskiej infrastruktury badawczej CLARIN (ang. Common Language Resources and Technology Infrastructure, pol. Wspólne Zasoby Językowe i Infrastruktura Technologiczna)^[1]. Jego celem jest tworzenie i udostępnianie cyfrowych zbiorów danych językowych i narzędzi cyfrowych do celów badawczych oraz dla potrzeb rozwoju przetwarzania języka naturalnego przez sztuczną inteligencję^[3].

Instytucją koordynującą CLARIN-PL jest Politechnika Wrocławska. Do konsorcjum należą także Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Polsko-Japońska Akademia Technik Komputerowych, Uniwersytet Łódzki oraz Uniwersytet Wrocławski^[4]. Podstawowym węzłem sieci CLARIN w Polsce (centrum typu B i K) jest finansowane przez Ministerstwo Edukacji i Nauki Centrum Technologii Językowych w Katedrze Sztucznej Inteligencji Wydziału Informatyki i Komunikacji Politechniki Wrocławskiej, w którym mieści się infrastruktura techniczna CLARIN-PL^[3]^[5].

Zasoby

Do zasobów opracowanych w ramach CLARIN-PL należą m.in.^[6]:

Korpus Dyskursu Parlamentarnego

Korpus Dyskursu Parlamentarnego to zbiór anotowanych lingwistycznie tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej. Wszystkie anotacje lingwistyczne są dostępne na licencji CC-BY.

Korpus Języka Polskiego Politechniki Wrocławskiej

Korpus Języka Polskiego Politechniki Wrocławskiej (KPWr) to zbiór dokumentów tekstowych dostępnych na licencji Creative Commons (CC-BY-SA), opisanych różnymi typami informacji lingwistycznych. Próbki do korpusu pobrano z takich źródeł jak: Wikipedia, Wikinews, portale informacyjne z treściami na licencji Creative Commons, dzieła literackie z domeny publicznej lub udostępnione na otwartej licencji itd., a więc takich, które zapewniają legalne i darmowe wykorzystanie korpusu.

Korpusy równoległe

W ramach CLARIN-PL powstaje korpus równoległy tłumaczeń polsko-angielskich i angielsko-polskich Paralela, a także dwujęzyczne korpusy równoległe tekstów współczesnych: polsko-bułgarski, polsko-litewski, polsko-ukraiński, polsko-rosyjski.

Platforma Leksykalna

Platforma Leksykalna to otwarty system sieciowy, służący do przeszukiwania źródeł leksykograficznych, umożliwiający umożliwia dostęp do danych leksykograficznych o poszczególnych leksemach.

Słowosieć

Osobny artykuł: Słowosieć.

Słowosieć to baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski^[7].

SpokesPL

SpokesPL to korpus współczesnej polszczyzny mówionej i związana z nim wyszukiwarka, umożliwiająca odsłuchiwanie fragmentów nagrań związanych z wyszukiwanymi lematami i związkami wyrazowymi.

Walenty

Osobny artykuł: Walenty (słownik).

Walenty to słownik walencyjny predykatów języka polskiego. Słownik zawiera zależności walencyjne predykatów, przede wszystkim czasowników, występujących w języku polskim, czyli ograniczeń sposobu, w jaki poszczególne wyrazy wiążą się z wyrazami podrzędnymi^[8].

Przypisy

↑ ^a ^b Participating Consortia. clarin.eu. [dostęp 2023-01-13]. (ang.).
↑ About. clarin.biz. [dostęp 2023-01-13]. (pol.).
↑ ^a ^b O nas. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).
↑ Joanna Dzikowska: Nowa pracownia na Uniwersytecie Wrocławskim. Cyfrowi humaniści czekają na wasze domowe skarby. Gazeta Wyborcza, 2018-10-22. [dostęp 2023-01-16]. (pol.).
↑ Maksymilian Bielecki: Sztuczna inteligencja w wykrywaniu demencji (podcast). web.swps.pl, 2022-11-25. [dostęp 2023-01-13]. (pol.).
↑ Zasoby. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).
↑ M.M. Piasecki M.M., S.S. Szpakowicz S.S., B.B. Broda B.B., A Wordnet from the Ground Up, cejsh.icm.edu.pl, 2009 [dostęp 2023-01-25] [zarchiwizowane 2016-01-07] .
↑ A. Przepiórkowski, E. Hajnicz, A. Andrzejczuk, A. Patejuk, M. Woliński: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego. cejsh.icm.edu.pl, 2017. [dostęp 2023-01-25].

Linki zewnętrzne

CLARIN-PL - oficjalna strona projektu
CLARIN-PL-Biz - usługi CLARIN-PL dla biznesu
CLARIN-PL w serwisie Facebook

[consortia-1] Participating Consortia. clarin.eu. [dostęp 2023-01-13]. (ang.).

[biz-2] About. clarin.biz. [dostęp 2023-01-13]. (pol.).

[o_nas-3] O nas. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).

[Wyborcza-4] Joanna Dzikowska: Nowa pracownia na Uniwersytecie Wrocławskim. Cyfrowi humaniści czekają na wasze domowe skarby. Gazeta Wyborcza, 2018-10-22. [dostęp 2023-01-16]. (pol.).

[demencja-5] Maksymilian Bielecki: Sztuczna inteligencja w wykrywaniu demencji (podcast). web.swps.pl, 2022-11-25. [dostęp 2023-01-13]. (pol.).

[zasoby-6] Zasoby. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).

[7] M.M. Piasecki M.M., S.S. Szpakowicz S.S., B.B. Broda B.B., A Wordnet from the Ground Up, cejsh.icm.edu.pl, 2009 [dostęp 2023-01-25] [zarchiwizowane 2016-01-07] .

[8] A. Przepiórkowski, E. Hajnicz, A. Andrzejczuk, A. Patejuk, M. Woliński: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego. cejsh.icm.edu.pl, 2017. [dostęp 2023-01-25].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]