Korpusomat

Z Wikipedii, wolnej encyklopedii
Korpusomat
Autor Instytut Podstaw Informatyki PAN
System operacyjny Windows, Linux, FreeBSD, MacOS X
Rodzaj program do zarządzania korpusami językowymi
Licencja freeware
Strona internetowa

Korpusomat – narzędzie służące do tworzenia i przeszukiwania elektronicznych korpusów językowych[1], powstałe w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.

Korpusomat należy do grupy narzędzi korpusowych czwartej generacji[2]. Jest aplikacją webową, co eliminuje konieczność przechowywania zbiorów danych na własnym komputerze. Tworzenie korpusu odbywa się albo poprzez dodanie plików tekstowych z lokalnego dysku (w dowolnym języku[3] i formacie[4]), albo przez wskazanie stron internetowych, z których teksty mają zostać pobrane automatycznie[5]. Następnie, korpus jest znakowany automatycznie na kilku poziomach: fleksyjnym, rozpoznawania jednostek nazewniczych (np. nazw geograficznych czy osób) i częściowej informacji składniowej (która umożliwia też wizualizację drzew zależnościowych)[3][6]. Gotowy korpus można edytować, współdzielić z innymi użytkownikami i przeszukiwać[3][6]. Dostępny jest też szereg funkcji oferujących podsumowania statystyczne zgromadzonych tekstów[3][6].

Przypisy[edytuj | edytuj kod]

  1. Aplikacja dostępna jest pod adresem: https://korpusomat.eu
  2. Laurence Anthony, A critical look at software tools in corpus linguistics, „Linguistic Research”, 30 (2), 2013, s. 141-161.
  3. a b c d Karol Saputa i inni, Korpusomat. eu: A multilingual platform for building and analysing linguistic corpora, „International Conference on Computational Science”, Springer Nature Switzerland, 2023, s. 230-237.
  4. Pełna lista możliwych formatów jest dostępna pod adresem: https://tika.apache.org/1.17/formats.html
  5. https://korpusomat-eu.readthedocs.io/pl/latest/manual/create-corpus.html
  6. a b c Witold Kieraś, Łukasz Kobyliński, Korpusomat – stan obecny i przyszłość projektu, „Język Polski”, 2021, s. 49–58, DOI10.31286/JP.101.2.4, ISSN 2720-1406.