Dane do odczytu maszynowego

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Dane do oczytu maszynowego to dane (lub metadane) zapisane w formacie, który pozwala na ich swobodny odczyt przez komputer.

Istnieją dwa rodzaje danych do odczytu maszynowego: dane czytelne dla ludzi, zapisane z użyciem języka znaczników tak, by były również zrozumiałe dla maszyn (np. mikroformaty, RDFa) oraz formaty zapisu danych przeznaczone przede wszystkim do odczytu przez komputery (np. RDF, XML, JSON).

Definicja danych do odczytu maszynowego[edytuj | edytuj kod]

Amerykański Office of Management and Budget (OMB) definiuje możliwość odczytu maszynowego jako „Format standardowego języka komputerowego (a więc nie tekstu w języku angielskim), który może być automatycznie odczytany przez przeglądarkę lub system komputerowy. (np. [XML]). Tradycyjne pliki procesorów tekstu, hipertekstowy język znaczników HTML oraz dokumenty PDF mogą być łatwo rozczytane przez ludzi, ale są zazwyczaj trudne do interpretacji maszynowej. Inne formaty, takie jak extensible markup language (XML), JavaScript Object Notation (JSON) lub arkusze kalkulacyjne z opisem kolumn, które mogą być eksportowane do formatu z wartościami oddzielonymi przecinkiem (CSVcomma separated values) są formatami nadającymi się do odczytu maszynowego. Istnieje możliwość przekształcenia tradycyjnych plików edytorów tekstu do postaci zdatnej do odczytu maszynowego, jednak wymaga to zawarcia w nich dodatkowych elementów strukturalnych.”[1]

Przepisy dotyczące odczytu maszynowego w Polsce[edytuj | edytuj kod]

W Polsce, rządowa strategia Sprawne Państwo 2020[2] wskazuje na konieczność wdrożenia otwartych standardów publikacji informacji publicznej, mających na uwadze możliwość maszynowego przetwarzania danych. Aktem prawnym regulującym kwestie udostępniania danych publicznych w systemach informatycznych jest Ustawa z dnia 17 lutego 2005 r. o informatyzacji działalności podmiotów realizujących zadania publiczne z późniejszymi zmianami[3]. Na jej podstawie zostało wydane rozporządzenie Krajowe Ramy Interoperacyjności (Rozporządzenie Rady Ministrów z dnia 12 kwietnia 2012 r. w sprawie Krajowych Ram Interoperacyjności, minimalnych wymagań dla rejestrów publicznych i wymiany informacji w postaci elektronicznej oraz minimalnych wymagań dla systemów teleinformatycznych)[4], które wprowadza pojęcie interoperacyjności semantycznej, polegającej m.in. na stosowaniu struktur danych publikowanych w repozytorium interoperacyjności. Systemy teleinformatyczne powinny udostępniać swoje zasoby informacyjne w co najmniej jednym formacie określonym w załączniku do Rozporządzenia. W teorii powinno to zagwarantować przejrzystość stosowanych formatów oraz możliwość odczytu maszynowego.

Odczyt maszynowy i prawo do informacji[edytuj | edytuj kod]

Możliwość maszynowego odczytu nie jest jedynie kwestią techniczną. Maszynowy odczyt jest uznawany za jeden z warunków zapewnienia przejrzystości i dostępności danych. Zwolennicy tego podejścia postulują udostępnianie otwartych danych do odczytu maszynowego w imię realizacji konstytucyjnego prawa dostępu do informacji. Zasada dostępności do odczytu maszynowego została zapisana m.in. w opracowanych w 2007 roku „8 Principles of Open Government Data”[5] oraz w deklaracji Global Open Data Initiative z 2013 roku[6].

Przypisy