Analiza dyskryminacyjna

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Analiza dyskryminacyjna (ang. discriminant analysis) – zespół metod wielowymiarowej analizy danych. Zawiera metody, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i eksploracji danych. Jej zadaniem jest rozstrzyganie, które zmienne w najlepszy sposób dzielą dany zbiór przypadków na występujące w naturalny sposób grupy. Pozwala rozstrzygnąć, czy grupy różnią się ze względu na średnią pewnej zmiennej, oraz wykorzystanie tej zmiennej do przewidywania przynależności do danej grupy.

W metodzie tej możemy wyróżnić dwa główne etapy:

  • etap uczenia / budowy modelu – w którym znajdujemy reguły klasyfikacyjne w oparciu o tak zwany zbiór uczący (próbę statystyczną)
  • etap klasyfikacji / wykorzystania modelu – w którym dokonujemy klasyfikacji zasadniczego zbioru obiektów, których przynależność jest nam nieznana, w oparciu o znalezione charakterystyki klas.

Sposób przeprowadzania analizy w pakietach statystycznych najczęściej przebiega krokowo (postępująca lub wsteczna analiza krokowa). Pakiety oprócz licznych statystyk wykreślają też tak zwane funkcje klasyfikacyjne, które stanowią doskonałą ilustrację otrzymanych wyników. Postać tych funkcji może być dowolna, choć najczęściej wykorzystywane są funkcje liniowe (LDA). W tym podejściu opisowym obiekt przydzielany jest do tej klasy, dla której funkcja dyskryminacyjna osiąga największą wartość.

Zaletą klasycznej analizy dyskryminacyjnej jest prostota jak i wysoka skuteczność na homogenicznych danych, wadą natomiast nieprzenośność i brak skuteczności na niehomogenicznych danych.

Używane są również w podobnych celach m.in. drzewa klasyfikacyjne, klasyfikatory bayesowskie, metoda najbliższych sąsiadów, maszyny wektorów podpierających (SVM).