Odległość Mahalanobisa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Odległość Mahalanobisa jest odległością między dwoma punktami w n-wymiarowej przestrzeni, która różnicuje wkład poszczególnych składowych oraz wykorzystuje korelacje między nimi. Znajduje ona zastosowanie w statystyce, przy wyznaczaniu podobieństwa między nieznanym wektorem losowym a wektorem ze znanego zbioru.

Definicja[edytuj]

Dane mamy 2 wektory losowe , w przestrzeni , oraz pewną symetryczną, dodatnio określoną macierz . Odległość Mahalanobisa zdefiniowana jest jako:

Interpretacja[edytuj]

Odległość Mahalanobisa stosuje się najczęściej w analizie skupień. Mając dany zbiór punktów tworzących pewną klasę, możemy wyznaczyć dla niego wektor średni oraz macierz kowariancji , które odzwierciedlają pewien charakter tej klasy. Badając przynależność nieznanego wektora losowego do danej klasy, mierzy się jego podobieństwo do wektora , uwzględniając przy tym informację o wariancjach poszczególnych składowych oraz korelacjach między nimi. Miarą takiego podobieństwa jest odległość Mahalanobisa, nazywana ważoną odległością euklidesową, przy czym macierzą wag jest .

Rozważmy trzy przypadki różnych zbiorów danych:

Przypadek 1[edytuj]

MahalanobisDist0.png

Poszczególne składowe w zbiorze mają równe wariancje (można przyjąć że są one równe 1) i nie są skorelowane. Wówczas macierz kowariancji jest macierzą jednostkową, a odległość Mahalanobisa jest równa odległości euklidesowej:

Punkty o identycznej odległości od pewnego danego punktu centralnego tworzą na płaszczyźnie okrąg, a w przestrzeni o trzech lub więcej wymiarach odpowiednio sferę i hipersferę.

Przypadek 2[edytuj]

MahalanobisDist1.png

Składowe wektora losowego nie są skorelowane, lecz mają różne wariancje: . Aby znormalizować poszczególne składowe należy je podzielić przez odpowiadające im wariancje:

gdzie jest macierzą diagonalną .

Punkty o identycznej odległości tworzą na płaszczyźnie elipsę, a w przestrzeni trójwymiarowej elipsoidę, przy czym osie utworzonej figury są równoległe do osi układu współrzędnych.

Przypadek 3[edytuj]

MahalanobisDist2.png

Składowe mają różne wariancje i są skorelowane: . Odpowiada to pełnej macierzy kowariancji , a utworzona przez punkty o tej samej odległości elipsa jest obrócona o pewien kąt względem osi układu współrzędnych. Obrót ten jest dany przez macierz wektorów własnych macierzy , zaś długości osi elipsy odpowiadają pierwiastkom kwadratowym jej wartości własnych .

Zastosowania[edytuj]

  • Kwadrat odległości Mahalanobisa występuje w wykładniku wielowymiarowego rozkładu Gaussa.
  • W zagadnieniach grupowania danych, np. klasteryzacji rozmytej, odległość Mahalanobisa wykorzystana jest do określania kształtu grupy (klastra). Przykładem jest algorytm GK[1] (Gustaffsona-Kessela).

Przypisy

  1. D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761-766