Anonimizacja danych

Z Wikipedii, wolnej encyklopedii

Anonimizacja danych – czynność polegająca na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby fizycznej albo, jeżeli przyporządkowanie takie wymagałoby niewspółmiernych kosztów, czasu lub działań (art. 3 pkt 1 ustawy z dnia 16 września 2011 r. o wymianie informacji z organami ścigania państw członkowskich Unii Europejskiej, państw trzecich, agencjami Unii Europejskiej oraz organizacjami międzynarodowymi (Dz.U. z 2023 r. poz. 783).

Anonimizacja pozwala na trwałe usunięcie powiązań między danymi osobowymi, a osobą, której dotyczą. W ten sposób informacje, które przed anonimizacją były danymi osobowymi, przestają nimi być.

Metody anonimizacji danych[1][edytuj | edytuj kod]

Każda z metod anonimizacji w inny sposób modyfikuje dane. Odmienne charakterystyki metod powodują, że wybór techniki uzależniony jest od uwarunkowań danej sytuacji. Niektóre z technik dają możliwość użycia ich w kombinacji (np. supresja rejestrów po generalizacji). Metody anonimizacji danych to:

  1. Randomizacja – losowy rozdział danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną. Zmiana układu danych w zestawie tak, aby poszczególne wartości zmiennych nadal były reprezentowane w zbiorze danych, generalnie nie odpowiadając oryginalnemu rejestrowi. Dodatkowe techniki stosowane w randomizacji to:
    • Dodanie zakłóceń, czyli modyfikacja atrybutów osób fizycznych, która utrudnia identyfikację np. zmiana miejsca zamieszkania, modyfikacja wieku o +/− 5 lat.
    • Permutacja, czyli tasowanie wartości atrybutów w tabelach przez podstawianie wartości z jednego zapisu do innego zapisu.
  2. Generalizacja (uogólnienie) – celowe obniżenie precyzji danych (np. zmiana dokładnego wieku osoby na przedział wiekowy).
  3. Supresja atrybutów – odnosi się do usunięcia całej partii danych (w arkuszach i bazach danych nazywanej również “kolumną”) w zestawie danych.
  4. Supresja rejestrów – dotyczy usunięcia całego rejestru w zestawie danych. W odróżnieniu od innych technik, ta metoda wpływa na wiele zmiennych jednocześnie.
  5. Maskowanie znaków – zmiana znaków wartości danych np. przez użycie stałego symbolu (np. „*” lub „x”). Maskowanie dotyczy tylko części znaków danej zmiennej.
  6. Pseudonimizacja (kodowanie) – zamiana wartości zmiennej z rzeczywistych na fikcyjne. Odwracalna pseudonimizacja występuje, gdy rzeczywiste wartości zmiennej są bezpiecznie przechowywane i w razie potrzeby mogą zostać odzyskane i połączone z pseudonimem. Gdy pierwotne wartości zostaną odpowiednio usunięte, pseudonimizacja jest nieodwracalna.
  7. Perturbacja danych – za dane rzeczywiste podstawiane są wartości, które w niedużym stopniu odbiegają od oryginalnych wartości zmiennej.
  8. Dane syntetyczne – technika używana głównie do bezpośredniego generowania syntetycznych zestawów danych, bez związku ze zbiorem danych rzeczywistych.
  9. Agregacja danych – konwersja listy wartości danych w zagregowane wielkości.

Korzyści związane z wykorzystaniem anonimizacji danych[2][edytuj | edytuj kod]

  • Spełnienie zgodności z przepisami ochrony danych osobowych.
  • Zapewnienie bezpieczeństwa danych w środowisku nieprodukcyjnym.
  • Brak konieczności uzyskania zgody na przetwarzanie danych.
  • Możliwość wykorzystania danych zanonimizowanych do innych celów niż wstępnie założone.
  • Dane mogą być przechowywane przez nieograniczony czas.
  • Istnieje możliwość międzynarodowego eksportowania danych.

Zagrożenia towarzyszące anonimizacji danych[2][edytuj | edytuj kod]

  1. Ryzyko wyodrębnienia – możliwość wyizolowania niektórych lub wszystkich wartości identyfikujących daną osobę w zbiorze danych.
  2. Ryzyko powiązania – możliwość powiązania co najmniej dwóch wartości dotyczących tego samego podmiotu danych lub grupy podmiotów (zarówno w jednej, jak i dwóch różnych bazach danych).
  3. Ryzyko konkluzji – możliwość dedukcji wartości zmiennej ze zbioru wartości innych zmiennych.

Narzędzia do anonimizacji danych[3][edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Personal Data Protection Commission Singapore (PDPC): GUIDE TO BASIC DATA ANONYMISATION TECHNIQUES. 2018-01-25.
  2. a b The Ultimate Guide to Data Anonymization in Analytics – Piwik PRO. Piwik PRO, 2018-07-12. [dostęp 2018-11-21]. (ang.).
  3. Gartner, Inc.: Data Masking Technologies Reviews. Gartner. [dostęp 2018-11-21]. (ang.).
  4. ronitr: Usługa Azure SQL Database dynamiczne maskowanie danych. docs.microsoft.com. [dostęp 2018-11-21].
  5. Oracle Data Masking and Subsetting Pack. www.oracle.com. [dostęp 2018-11-21]. (ang.).
  6. Guardium Data Protection – Polska | IBM. www.ibm.com. [dostęp 2018-11-21].
  7. Data Masking: Data Obfuscation & Encryption | Informatica US. www.informatica.com. [dostęp 2018-11-21]. (ang.).
  8. Informatica. [dostęp 2018-11-21]. (ang.).
  9. Data Express | Micro Focus. www.microfocus.com. [dostęp 2018-11-21].
  10. index. magedata.ai. [dostęp 2018-11-21]. (ang.).
  11. CA Test Data Manager | CA Communities. ca-tech.jiveon.com. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)].
  12. Test Data Privacy – Compuware. Compuware. [dostęp 2018-11-21]. (ang.).
  13. IRI FieldShield Data Masking | IRI, The CoSort Company. www.iri.com. [dostęp 2018-11-21]. (ang.).
  14. Database Protector | Protegrity. Protegrity. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)]. (ang.).
  15. Vormetric Vaultless Tokenization with Dynamic Data Masking | Vaultless Data Tokenization | Thales eSecurity. www.thalesesecurity.com. [dostęp 2018-11-21]. (ang.).
  16. Soflab. soflab.pl. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2023-06-24)]. (ang.).