Jakość danych
Jakość danych – kwalifikacja poprawności danych, ale także ich przydatności[1].
Jakość danych to wielowymiarowa konstrukcja[2]. Definiowanie tych wymiarów oraz ocena każdego z nich zależy od zainteresowanych grup (użytkowników tych danych).
Opis[edytuj | edytuj kod]
W polskiej statystyce publicznej jakość danych określana jest według Europejskiego Systemu Statystycznego za pomocą sześciu wyznaczników jakości: użyteczności, dokładności, terminowości i punktualności, dostępności i przejrzystości, przejrzystości, porównywalności, spójności[3]. Natomiast w analityce biznesowej jakość danych utożsamiana jest z kompletnością i spójnością jako centralnymi wymiarami jakości danych w systemie analitycznym[4].
Liczba źródeł danych jest zależna od wielkości organizacji oraz tego jak dynamicznie się ona rozwija. Kluczowym dla oceny sytuacji w poszczególnych obszarach jest wewnętrzna i wzajemna spójność. Z tego powodu, w celu uniknięcia chaosu informacyjnego i niekorzystnych decyzji, kluczowym jest zadbanie o właściwe zarządzanie całym procesem, tj. o odpowiednie zarządzanie jakością danych (ang. Data Quality Management)[5].
Cechy jakości danych[edytuj | edytuj kod]
Jakość danych można interpretować przez pryzmat wielu ważnych cech, aspektów, których analiza pozwoli w mniejszym lub większym stopniu na dokonanie subiektywnej oceny jakości danych[6]. Informacja, która może uchodzić za jakościową, powinna posiadać następujące cechy:
- relatywność – informacja spełnia oczekiwania odbiorcy – ma dla niego znaczenie i spełnia jego potrzeby,
- dokładność – informacja odpowiada poziomowi wiedzy odbiorcy, wyczerpująco opisuje dany temat,
- aktualność – informacja jest wartościowa, świeża,
- kompletność – informacja zawiera wystarczającą liczbę danych, co może skutkować przekształceniem informacji w konkretną wiedzę,
- spójność – poszczególne elementy i dane tworzą logiczną całość,
- adekwatność – właściwa prezentacja oraz opis informacji umożliwiający stosowną interpretację,
- dostępność – informacja jest dostępna zawsze, gdy jest potrzebna odbiorcom,
- wiarygodność – informacja poświadcza autentyczność danych, zawiera elementy potwierdzające rzetelności przekazu,
- przystawalność – informacja jest przedstawiona w sposób analogiczny z inną informacją[6].
Zarządzanie jakością danych[edytuj | edytuj kod]
Jedynie właściwa strategia pozwala na skuteczne zarządzanie jakością danych. Do jej najważniejszych właściwości należą[5]:
- wiedza o źródłach danych (miejsce ich powstania, aspekty technologiczne),
- optymalizacja procedur (automatyzacja, standaryzacja),
- stałość w monitorowaniu i eliminacji uszkodzonych danych wsadowych z baz,
- wprowadzenie w życie procedur zapewnianiających czystości danych,
- określenie odpowiedzialności za jakość danych i ich weryfikację.
Oczyszczanie danych[edytuj | edytuj kod]
Oczyszczanie danych jest metodą wykrywania i usuwania lub poprawiania informacji zawartych w bazach danych, jeśli informacje te są nieprawidłowe, zduplikowane, niedokładne, nieaktualne, nadmiarowe lub niewłaściwie sformatowane[5]. Dodatkowo działanie to zapewnia o bezbłędności połączeń danych z oddzielonych baz danych. Proces czyszczenia danych bazuje na algorytmach opracowywanych przez programistów i administratorów baz danych, co pozwala na eliminację błędów, które mogłyby mieć miejsce podczas manualnej edycji baz danych[7]. Usługa czyszczenia danych wykorzystywana jest głównie w bankach, towarzystwach ubezpieczeniowych, handlu, telekomunikacji i transporcie. Programy odpowiadające za oczyszczanie danych mogą na przykład zniwelować niektóre rodzaje błędów, wprowadzić brakujące informacje lub zlokalizować zduplikowane dane[7].
Najważniejsze etapy oczyszczania danych[edytuj | edytuj kod]
- Walidacja – inaczej weryfikacja czy surowe dane nie zawierają podstawowych błędów, które mogłyby zaburzyć równowagę całego procesu. Z tego powodu walidacja powinna być pierwszym krokiem w procesie oczyszczania danych,
- Formatowanie do wspólnej wartości (standaryzacja) – polega na sprowadzeniu do wspólnej wartości liczby użytkowników, którzy np. w wyszukiwarkę e-commerce wpisali frazy kluczowe oznaczające to samo, ale sformułowali je w inny sposób, np. odzież sportowa, ciuchy do ćwiczeń, ubrania sportowe,
- Czyszczenie duplikatów – eliminowanie zduplikowanych elementów powstałych w wyniku segregowania danych,
- Uzupełnianie brakujących danych vs. usuwanie danych niepełnych – w celu dokonania analizy potrzebna jest kompletna baza danych, należy więc dodać brakujące informacje oraz pozbyć się niekompletnych danych, które mogą rozregulowywać wyniki,
- Wykrywanie konfliktów w bazie danych – ostatni etap oczyszczania danych, polega on na odsianiu wartości, które wzajemnie się wykluczają[5].
Przypisy[edytuj | edytuj kod]
- ↑ Katarzyna Błaszczyk, Ryszard Knosala. Problem jakości danych w hurtowniach. „Prace Naukowe/Akademia Ekonomiczna w Katowicach”, 2006.
- ↑ Leo L. Pipino , Yang W. Lee , Richard Y. Wang , Data Quality Assessment, 2002, DOI: 10.1145/505248.506010 .
- ↑ Jacek Maślankowski , Analiza jakości danych pozyskiwanych ze stron internetowych z wykorzystaniem rozwiązań Big Data, „Roczniki Kolegium Analiz Ekonomicznych”, 38, 2015, s. 167–177 .
- ↑ Ohbyung Kwon , Namyeon Lee , Bongsik Shin , Data quality management, data usage experience and acquisition intention of big data analytics, „International Journal of Information Management”, 34 (3), 2014, s. 387–394, DOI: 10.1016/j.ijinfomgt.2014.02.002 [dostęp 2022-02-04] (ang.).
- ↑ a b c d Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej? [online], Enterium, 22 października 2021 [dostęp 2022-02-04] (pol.).
- ↑ a b Czym więc jest jakość danych? Kiedy dane mają dobrą jakość, a kiedy złą? [online], Digital Finance Excellence, 22 października 2020 [dostęp 2022-02-04] (pol.).
- ↑ a b Czyszczenie Danych [online], Bazy wiedzy WASKO S.A. [dostęp 2022-02-04] .