Klastrowanie hierarchiczne: Różnice pomiędzy wersjami

Przejdź do nawigacji Przejdź do wyszukiwania
Dodane 77 bajtów ,  5 miesięcy temu
szablon „Integruj”; poprawki
(Literówka - jedno "j" za dużo.)
(szablon „Integruj”; poprawki)
 
{{Integruj | Grupowanie hierarchiczne | Oba artykuły omawiają to samo pojęcie. }}
'''Klastrowanie hierarchiczne (grupowanie hierarchiczne, metody hierarchiczne)''' – zbiorcza nazwa metod w obrębie [[Analiza skupień|analizy skupień]], w których tworzone kolejno klastry pozostają w pewnej hierarchii. W tej hierarchii można wyszczególnić grupy (klastry) nadrzędne, których elementami są inne grupy (klastry) niższego rzędu. Metody te są deterministyczne - dają gwarancję powtarzalności wyników dla tych samych danych wejściowych.
 
'''Klastrowanie hierarchiczne''', ('''grupowanie hierarchiczne''', metody'''klasteryzacja hierarchiczne)hierarchiczna''' – zbiorcza nazwa metod w obrębie [[Analiza skupień|analizy skupień]], w których tworzone kolejno klastry pozostają w pewnej hierarchii. W tej hierarchii można wyszczególnić grupy (klastry) nadrzędne, których elementami są inne grupy (klastry) niższego rzędu. Metody te są deterministyczne - dają gwarancję powtarzalności wyników dla tych samych danych wejściowych.
 
Metody ze względu na sposób grupowania dzielą się na:
 
* metody aglomeracyjne (indukcyjne)
* metody podziałowe (dedukcyjne).
 
W metodach aglomeracyjnych punktem startowym jest zbiór jednoelementowych klastrów, którego liczba elementów jest równa liczbie obiektów. W każdym kolejnym kroku obiekty są łączone w skupiska wyższego rzędu na podstawie wybranej metryki odległości pomiędzymiędzy grupami. Efektem końcowym jest jedna grupa obiektów zawierająca wszystkie elementy zbioru. Metody podziałowe postępują w sposób odwrotny: stanem początkowym jest jedna grupa, zawierająca wszystkie obiekty, która jest w kolejnych krokach dzielona na coraz mniejsze elementy, aż do uzyskania zbioru skupisk jednoelementowych.
 
W odróżnieniu od innych metod grupowania (np. [[Algorytm centroidów|k-means]]), metody klastrowania hierarchicznego '''nie wymagają ustalania z góry liczby klastrów'''. Oznacza to, że po przeprowadzeniu procedury i zwizualizowaniu jej wyników np. za pomocą dendrogramu, badacz może po fakcie, na podstawie wyników zadecydować, jaka liczba klastrów jest optymalna. Zwykle podział następuje w miejscu najdłuższych gałęzi dendrogramu.
 
* [[metoda Warda]]
* metoda najdalszego sąsiedztwa (w której odległość pomiędzymiędzy grupami jest ustalona jako odległość pomiędzymiędzy najbardziej oddalonymi od siebie obiektami z dwóch grup)
* metoda najbliższego sąsiedztwa (w której odległość pomiędzymiędzy grupami jest ustalona jako odległość pomiędzymiędzy najmniej oddalonymi od siebie obiektami z dwóch grup)
* metoda średniej grupowej (w której odległość pomiędzymiędzy grupami jest ustalona jako średnia wszystkich odległości pomiędzymiędzy obiektami różnych grup)
* metoda mediany
* metoda środka ciężkości
 
Nazwy tych metod odnoszą się do sposobu wyboru punktu reprezentującego dany klaster. Oprócz tego konieczne jest wybranie metryki odległości pomiędzymiędzy punktami reprezentującymi środki różnych grup. Można spotkać się ze stosowaniem m.in. metryk: [[MetrykaPrzestrzeń euklidesowa#Definicja metryki euklidesowej|euklidesowej]], miejskiej, Czebyszewa, Mińkowskiego lub, Canberra.
 
== Zobacz też ==
* [[Metoda Warda]]
 
== Bibliografia ==
* E. Nowak ''Zarys Metodmetod Ekonometriiekonometrii'', PWN, {{ISBN|9788301152598}}
* [http://www.statistica.pl/textbook/stathome_stat.html?http%3A%2F%2Fwww.statistica.pl%2Ftextbook%2Fstcluan.html Statistica.pl] (dostęp z dn. 12.11.2018)
* [http://edu.pjwstk.edu.pl/wyklady/adn/scb/wyklad13/w13.htm Materiały edukacyjne (wykłady) Polsko-Japońskiej Akademii Technik Komputerowych] (dostęp z dn. 12.11.2018)

Menu nawigacyjne