Big data

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania
Wizualizacja edycji Wikipedii jako klasyczny przykład big data.

Big data – termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy[1]. W praktyce pojęcie dużego zbioru danych jest względne i oznacza sytuację, gdy zbioru nie da się przetwarzać przy użyciu trywialnych, powszechnie dostępnych metod[2]. W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii[3]), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywanie billingów telefonicznych w telekomunikacji[4]). Big data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych.

W 2001 roku META Group (obecnie Gartner) opublikowała raport[5], który opisuje big data w modelu 3V:

  • duża ilość danych (ang. volume);
  • duża zmienność danych (ang. velocity);
  • duża różnorodność danych (ang. variety).

Model ten uzupełniony został o kolejną składową - o ocenę (weryfikację), (ang. value) posiadanych danych - dochodząc do modelu 4V.

Zastosowanie modelu 4V w polskiej wersji 4W przedstawia się następująco[6]:

  • wykorzystanie - wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
  • wnioskowanie - umiejętnie stosuj techniki analityczne, użyj ekspertów;
  • wzbogacanie - wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
  • weryfikacja - koniecznie weryfikuj hipotezy i wnioski.

W roku 2012 Gartner uzupełnił podaną wcześniej definicję, wskazując, iż „big data" to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”[7].

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]