Klastrowanie hierarchiczne

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Klastrowanie hierarchiczne (grupowanie hierarchiczne, metody hierarchiczne) – zbiorcza nazwa metod w obrębie analizy skupień, w których tworzone kolejno klastry pozostają w pewnej hierarchii. W tej hierarchii można wyszczególnić grupy (klastry) nadrzędne, których elementami są inne grupy (klastry) niższego rzędu. Metody te są deterministyczne - dają gwarancję powtarzalności wyników dla tych samych danych wejściowych.

Metody ze względu na sposób grupowania dzielą się na:

  • metody aglomeracyjne (indukcyjne)
  • metody podziałowe (dedukcyjne)

W metodach aglomeracyjnych punktem startowym jest zbiór jednoelementowych klastrów, którego liczba elementów jest równa liczbie obiektów. W każdym kolejnym kroku obiekty są łączone w skupiska wyższego rzędu na podstawie wybranej metryki odległości pomiędzy grupami. Efektem końcowym jest jedna grupa obiektów zawierająca wszystkie elementy zbioru. Metody podziałowe postępują w sposób odwrotny: stanem początkowym jest jedna grupa, zawierająca wszystkie obiekty, która jest w kolejnych krokach dzielona na coraz mniejsze elementy, aż do uzyskania zbioru skupisk jednoelementowych.

W odróżnieniu od innych metod grupowania (np. k-means), metody klastrowania hierarchicznego nie wymagają ustalania z góry liczby klastrów. Oznacza to, że po przeprowadzeniu procedury i zwizualizowaniu jej wyników np. za pomocą dendrogramu, badacz może po fakcie, na podstawie wyników zadecydować, jaka liczba klastrów jest optymalna. Zwykle podział następuje w miejscu najdłuższych gałęzi dendrogramu.

Do najbardziej popularnych metod hierarchicznych należą:

  • metoda Warda
  • metoda najdalszego sąsiedztwa (w której odległość pomiędzy grupami jest ustalona jako odległość pomiędzy najbardziej oddalonymi od siebie obiektami z dwóch grup)
  • metoda najbliższego sąsiedztwa (w której odległość pomiędzy grupami jest ustalona jako odległość pomiędzy najmniej oddalonymi od siebie obiektami z dwóch grup)
  • metoda średniej grupowej (w której odległość pomiędzy grupami jest ustalona jako średnia wszystkich odległości pomiędzy obiektami różnych grup)
  • metoda mediany
  • metoda środka ciężkości

Nazwy tych metod odnoszą się do sposobu wyboru punktu reprezentującego dany klaster. Oprócz tego konieczne jest wybranie metryki odległości pomiędzy punktami reprezentującymi środki różnych grup. Można spotkać się ze stosowaniem m.in. metryk: euklidesowej, miejskiej, Czebyszewa, Mińkowskiego lub Canberra.

Zobacz też[edytuj | edytuj kod]

Bibliografia[edytuj | edytuj kod]