DBSCAN

Z Wikipedii, wolnej encyklopedii
DBSCAN
Ilustracja
Przykład klastrów uzyskanych za pomocą algorytmu DBSCAN
Rodzaj

klasteryzacja

Złożoność
Czasowa

(średnia)

DBSCAN (od ang. Density-Based Spatial Clustering of Applications with Noise) – algorytm grupowania danych (klasteryzacji) oparty na gęstości[1][2]. Jego pierwsza wersja została opublikowana w 1996 roku przez Martina Estera wraz ze współautorami[3][4].

Klastrami utworzonymi za pomocą tego algorytmu są gęsto ułożone obszary obiektów, co odpowiada intuicyjnemu rozumieniu grupowania[5]. Algorytm umożliwia znalezienie klastra o dowolnym kształcie, w tym klastra otaczającego inny klaster[2]. W odróżnieniu od algorytmu k-średnich, DBSCAN nie wymaga określenia liczby klastrów[2]. Średnia złożoność czasowa algorytmu wynosi [3].

Opis[edytuj | edytuj kod]

Ilustracja działania algorytmu dla Czerwone punkty (w tym punkt A) są punktami centralnymi, żółte (B i C) są punktami granicznymi, niebieski (N) jest szumem

Algorytm przyjmuje dwa parametry wejściowe (należy je dobrać pod kątem konkretnego zagadnienia)[1][5]:

  • – maksymalny promień sąsiedztwa,
  • – minimalna liczba obiektów wchodzących w skład klastra.

Algorytm dokonuje grupowania zbioru w następujący sposób[1][3][5]:

  1. Wylosuj ze zbioru danych punkt
  2. Znajdź wszystkie punkty ze zbioru których odległość od punktu jest mniejsza bądź równa
  3. Jeśli liczba punktów znalezionych w punkcie 2 jest większa bądź równa punkt jest punktem centralnym i można na jego podstawie zbudować nowy klaster. W takim wypadku:
    1. Utwórz nowy klaster zawierający punkt i wszystkie punkty znalezione w punkcie 2.
    2. Dołączaj do klastra kolejne punkty, o ile są osiągalne gęstościowo z punktów już znajdujących się w klastrze, to znaczy:
      1. jeśli odległość punktu od dowolnego punktu centralnego w klastrze jest mniejsza bądź równa a w odległości mniejszej bądź równej od punktu znajduje się co najmniej punktów, punkt jest także punktem centralnym – do klastra należy ten punkt oraz wszystkie inne znajdujące się w promieniu
      2. jeśli odległość punktu od dowolnego punktu centralnego w klastrze jest mniejsza bądź równa ale w odległości mniejszej bądź równej od punktu znajduje mniej niż punktów, punkt jest punktem granicznym – do klastra należy ten punkt, ale już niekoniecznie inne punkty znajdujące się w promieniu
  4. Wybierz kolejny punkt (pomijając punkty znajdujące się już wewnątrz klastrów i punkty sprawdzone w punkcie 3) i wróć do punktu 3. Jeśli nie ma już nieprzejrzanych punktów, zakończ działanie algorytmu. Punkty niezaklasyfikowane do żadnego z klastrów traktowane są jako szum.

W zależności od kolejności przetwarzania punktów, przynależność punktów granicznych do klastrów może się zmienić. Pod tym względem algorytm jest więc niedeterministyczny[2].

Implementacje[edytuj | edytuj kod]

Implementacja algorytmu jest dostępna między innymi w bibliotece scikit-learn języka Python[6].

Przypisy[edytuj | edytuj kod]

  1. a b c Artur Starczewski, Piotr Goetzen, Meng Joo Er, A New Method for Automatic Determining of the DBSCAN Parameters, „Journal of Artificial Intelligence and Soft Computing Research”, 10 (3), 2020, s. 209–221, DOI10.2478/jaiscr-2020-0014 [dostęp 2024-01-08] (ang.).
  2. a b c d Karolina Sala, Przegląd technik grupowania danych i obszary zastosowań, „Społeczeństwo i Edukacja. Międzynarodowe Studia Humanistyczne”, 2 (25), Instytut Studiów Międzynarodowych i Edukacji Humanum, 2017, s. 141–145 [dostęp 2024-01-08].
  3. a b c Martin Ester i inni, A density-based algorithm for discovering clusters in large spatial databases with noise, „Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96)”, AAAI Press, 1996, s. 226–231.
  4. Saif Ur Rehman i inni, DBSCAN: Past, present and future, IEEE, luty 2014, s. 232–238, DOI10.1109/ICADIWT.2014.6814687, ISBN 978-1-4799-2259-8.
  5. a b c Agnieszka Nowak-Brzezińska, Tomasz Xięski, Grupowanie danych złożonych, „Studia Informatica”, 32 (2A), Gliwice: Wydawnictwo Politechniki Śląskiej, 2011, s. 391–402 [dostęp 2024-01-08].
  6. sklearn.cluster.DBSCAN [online], scikit-learn [dostęp 2024-01-08] (ang.).