Big data

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Wizualizacja edycji Wikipedii jako klasyczny przykład big data

Big data – termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy[1]. W praktyce pojęcie dużego zbioru danych jest względne i oznacza sytuację, gdy zbioru nie da się przetwarzać przy użyciu trywialnych, powszechnie dostępnych metod[2]. W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii[3]), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywanie billingów telefonicznych w telekomunikacji[4]). Big data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych.

W 2001 roku META Group opublikowała raport[5], który opisuje big data w modelu 3V:

  • duża ilość danych (ang. volume);
  • duża zmienność danych (ang. velocity);
  • duża różnorodność danych (ang. variety).

Model ten uzupełniony został o kolejną składową – o ocenę (weryfikację), (ang. value) posiadanych danych – dochodząc do modelu 4V.

Zastosowanie modelu 4V w polskiej wersji 4W przedstawia się następująco[6]:

  • wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
  • wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów;
  • wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
  • weryfikacja – koniecznie weryfikuj hipotezy i wnioski.

W roku 2012 Gartner uzupełnił podaną wcześniej definicję, wskazując, iż „big data" to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”[7].

Technologie[edytuj]

Raport McKinsey Global Institute[8] z 2011 roku scharakteryzował główne komponenty i ekosystem Big data w następujący sposób:

  • Techniki analizy danych, takich jak Testy A / B, uczenie maszynowe i przetwarzanie języka naturalnego
  • Technologie Big data takie jak  business intelligence, przetwarzanie danych w chmurze oraz bazy danych
  • Wizualizacje, takich jak wykresy, grafy i inne formy prezentowania danych

Wielowymiarowe Big data mogą być również reprezentowane jako tensory, które mogą być wydajnie obsługiwane przez obliczenia oparte o tensory, takie jak wieloliniowe uczenie podprzestrzenne. Dodatkowe technologie, które znajdują zastosowanie w Big data obejmują wielkoskalowe równoległe przetwarzanie baz danych, aplikacje oparte o szukanie, Data mining, rozproszone systemy plików, rozproszone bazy danych, infrastruktura chmurowa (aplikacje, zasoby przetwarzające, pamięć) oraz Internet.

Ale nie wszystkie bazy danych WRP mają zdolność do przechowywania i zarządzania petatbajtami danych. Wnioskując jest możliwość doładowania, monitorowania, tworzenia kopii zapasowych oraz optymalizacji użycia ogromnymi tabelami danych w relacyjnych bazach danych.[9]

Topologiczna analiza danych poszukuje fundamentalnej struktury zbiorów olbrzymich danych. W 2008 roku technologia została upubliczniona wraz z założeniem firmy Ayasdi.

Praktycy procesów analizy Big data są generalnie wrodzy dla wolniejszych współdzielonych pamięci,[10] preferując bezpośrednio dołączone pamięci (DAS) w przeróżnych formach, od dysków SSD do wielko pojemnościowych dysków SATA zakopanych wewnątrz węzłów przetwarzania równoległego. Postrzeganie architektur współdzielonych pamięci jest takie, ze sa relatywnie wolne, złożone oraz drogie. Te wartości nie są zgodne z analitycznymi systemami Big data, które czerpią z wydajności systemu, łatwo dostępnej infrastrukturze oraz niskich kosztów.

Rzeczywisty lub prawie rzeczywisty czas dostarczania  informacji jest jedna z kluczowych charakterstyk analizy Big data. Unika się opóźnień chociaż są możliwe. Dane w pamięci są dobre - dane na dysku talerzowym na drugim końcu serwerowni.

Są zalety tak samo jak wady w rozwiązaniu współdzielonych pamięci, ale praktycy analizy Big data do 2011 roku nie faworyzują tego.[11]

Zobacz też[edytuj]

Przypisy[edytuj]