Gradacyjna analiza danych

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Gradacyjna analiza danych (ang. grade data analysis, grade correspondence analysis) – dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.

Celem gradacyjnej analizy danych jest uniknięcie wad tradycyjnego podejścia do testowania hipotez statystycznych, obarczonego ograniczeniami wynikającymi z założeń na temat postaci rozkładu zmiennej losowej oraz pobranej z niego próby losowej.

Gradacyjna analiza danych obejmuje narzędzia analizy wielowymiarowej takie jak analiza skupień, analiza odpowiedniości i analiza regresji dla zmiennych mierzonych na różnych skalach, nie tylko na skali ilorazowej, ale również na skali porządkowej czy skali nominalnej.

Podstawy teoretyczne[edytuj]

Gradacyjna analiza danych opiera się na współczynniku Giniego i współczynniku koncentracji, tradycyjnie wykorzystywanych dla rozkładu dwuwymiarowego, ale w przypadku tej metody uogólnionych dla rozkładu wielowymiarowego. Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (gradacyjnej analizy odpowiedniości), poszukujący największej zależności lub regularności w macierzy danych.

Najważniejsze pojęcia gradacyjnej analizy danych zostały opisane w następujących publikacjach:

  • T. Kowalczyk, E. Pleszczyńska, F. Ruland: Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. (red.). Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151.
  • E. Pleszczyńska, W. Szczesny. Grade exploratory methods applied to some medical data sets. „Biocybernetics and Biomedical Engineering”. Vol. 22, 1, s. 17 - 30, 2002. 

Wizualizacja[edytuj]

W gradacyjnej analizie danych oprócz standardowych wykresów rozproszenia (ang. scatter-plot) i histogramów wykorzystuje się oryginalne narzędzia wizualizacji: mapy nadreprezentacji i mapy korelacji, przeznaczone w szczególności dla danych wielowymiarowych. Nadreprezentację definiuje się jako stosunek wartości empirycznej do wartości oczekiwanej obliczonej z rozkładu brzegowego danej macierzy.

Zobacz też[edytuj]

Linki zewnętrzne[edytuj]