Klastrowanie hierarchiczne

Klastrowanie hierarchiczne, grupowanie hierarchiczne, klasteryzacja hierarchiczna – zbiorcza nazwa metod w obrębie analizy skupień, w których tworzone kolejno klastry pozostają w pewnej hierarchii. W tej hierarchii można wyszczególnić grupy (klastry) nadrzędne, których elementami są inne grupy (klastry) niższego rzędu. Metody te są deterministyczne - dają gwarancję powtarzalności wyników dla tych samych danych wejściowych.

Metody ze względu na sposób grupowania dzielą się na:

metody aglomeracyjne (indukcyjne)
metody podziałowe (dedukcyjne).

W metodach aglomeracyjnych punktem startowym jest zbiór jednoelementowych klastrów, którego liczba elementów jest równa liczbie obiektów. W każdym kolejnym kroku obiekty są łączone w skupiska wyższego rzędu na podstawie wybranej metryki odległości między grupami. Efektem końcowym jest jedna grupa obiektów zawierająca wszystkie elementy zbioru. Metody podziałowe postępują w sposób odwrotny: stanem początkowym jest jedna grupa, zawierająca wszystkie obiekty, która jest w kolejnych krokach dzielona na coraz mniejsze elementy, aż do uzyskania zbioru skupisk jednoelementowych.

W odróżnieniu od innych metod grupowania (np. k-means), metody klastrowania hierarchicznego nie wymagają ustalania z góry liczby klastrów. Oznacza to, że po przeprowadzeniu procedury i zwizualizowaniu jej wyników np. za pomocą dendrogramu, badacz może po fakcie, na podstawie wyników zadecydować, jaka liczba klastrów jest optymalna. Zwykle podział następuje w miejscu najdłuższych gałęzi dendrogramu.

Do najbardziej popularnych metod hierarchicznych należą:

metoda Warda
metoda najdalszego sąsiedztwa (w której odległość między grupami jest ustalona jako odległość między najbardziej oddalonymi od siebie obiektami z dwóch grup)
metoda najbliższego sąsiedztwa (w której odległość między grupami jest ustalona jako odległość między najmniej oddalonymi od siebie obiektami z dwóch grup)
metoda średniej grupowej (w której odległość między grupami jest ustalona jako średnia wszystkich odległości między obiektami różnych grup)
metoda mediany
metoda środka ciężkości

Nazwy tych metod odnoszą się do sposobu wyboru punktu reprezentującego dany klaster. Oprócz tego konieczne jest wybranie metryki odległości między punktami reprezentującymi środki różnych grup. Można spotkać się ze stosowaniem metryk: euklidesowej, miejskiej, Czebyszewa, Mińkowskiego, Canberra.

Bibliografia[edytuj | edytuj kod]

E. Nowak Zarys metod ekonometrii, PWN, ISBN 978-83-01-15259-8
Statistica.pl (dostęp z dn. 12.11.2018)
Materiały edukacyjne (wykłady) Polsko-Japońskiej Akademii Technik Komputerowych (dostęp z dn. 12.11.2018)
Materiały edukacyjne (wykłady) Wydziału Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego (dostęp z dn. 12.11.2018)