Estymator jądrowy gęstości

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Przykład estymatora jądrowego gęstości dla otrzymanego zbioru danych

Estymator jądrowy gęstości[1] lub jądrowy estymator gęstości[2] – rodzaj estymatora nieparametrycznego, przeznaczony do wyznaczania gęstości rozkładu zmiennej losowej, na podstawie uzyskanej próby, czyli wartości jakie badana zmienna przyjęła w trakcie dotychczasowych pomiarów[3].

Badana zmienna losowa może być jedno- lub wielowymiarowa. Przynależność do grupy metod nieparametrycznych oznacza, że przy ich stosowaniu nie jest wymagana a priori informacja o typie występującego rozkładu (np. czy jest on normalny, czy Cauchy'ego, itp.). Klasyczne parametryczne metody estymacji gęstości wymagały wcześniejszego ustalenia takiego typu, po czym – w ramach ich stosowania – jedynie wyznaczano wartości istniejących w jego definicji parametrów.

Najprostszym nieparametrycznym estymatorem gęstości jest histogram. Estymator jądrowy w pewnym stopniu przypomina odpowiednio wygładzony wykres histogramu o małej szerokości cel.

Estymator jądrowy gęstości jest często używany do analizy danych w wielu dziedzinach nauki: archeologii, ekologii, automatyce, materiałoznawstwie, itd.[1]

Definicja[edytuj | edytuj kod]

Niech dana będzie n-wymiarowa zmienna losowa X, której rozkład posiada gęstość f. Jej estymator jądrowy \hat{f} : \mathbb{R}^n \to [0,\infty) wyznacza się w oparciu o wartości m-elementowej próby losowej


x_1, x_2, ..., x_m ,
(1)

uzyskanej ze zmiennej X, i w swej podstawowej formie jest on definiowany wzorem


\hat{f}(x) = \frac{1}{mh^n}\sum_{i=1}^{m} K\left(\frac{x-x_i}{h}\right)\ ,
(2)

gdzie mierzalna, symetryczna względem zera oraz posiadająca w tym punkcie słabe maksimum globalne funkcja K : \mathbb{R}^n \to [0,\infty) spełnia warunek \int_{\mathbb{R}^n}{K(x)dx}=1 i nazywana jest jądrem, natomiast dodatni współczynnik h określa się mianem parametru wygładzania.


Rys. 1. Jądrowy estymator gęstości (wzór (2)) rozkładu jednowymiarowej zmiennej losowej

Interpretację powyższej definicji ilustruje Rys. 1, na przykładzie zmiennej losowej jednowymiarowej, czyli gdy n=1, dla 9-elementowej próby losowej, a zatem m=9. W przypadku pojedynczej realizacji x_i, funkcja K (przesunięta o wektor x_i oraz przeskalowana współczynnikiem h) reprezentuje oszacowanie rozkładu zmiennej losowej X po otrzymaniu wartości x_i. Dla m niezależnych realizacji x_1, x_2, ..., x_m, oszacowanie to przyjmuje postać sumy takich pojedynczych oszacowań. Współczynnik 1/mh^n normuje uzyskaną funkcję w celu zagwarantowania warunku \int_{\mathbb{R}^n}{\hat{f}(x)dx}=1, wymaganego od gęstości rozkładu probabilistycznego.

Estymator jądrowy umożliwia oszacowanie gęstości praktycznie dowolnego rozkładu, bez żadnych założeń o jego przynależności do ustalonej klasy. Nietypowe, złożone rozkłady, w tym także wielomodalne, traktowane są tu tak samo jak podręcznikowe rozkłady unimodalne. W przypadku wielowymiarowym, czyli przy n>1, pozwala to między innymi na identyfikację wszechstronnych zależności pomiędzy poszczególnymi współrzędnymi badanej zmiennej losowej. Ustalenie wielkości wprowadzonych w definicji (2), a zatem wybór postaci jądra K oraz wyznaczenie wartości parametru wygładzania h, dokonywane jest najczęściej na podstawie kryterium minimum scałkowanego błędu średniokwadratowego.

Wybór postaci jądra[edytuj | edytuj kod]

Ze statystycznego punktu widzenia, postać jądra nie ma istotnego znaczenia i wybór funkcji K może być arbitralny, uwzględniający przede wszystkim pożądane własności otrzymanego estymatora, na przykład klasę jego regularności (np. ciągłość, różniczkowalność, itp.), przyjmowanie dodatnich wartości lub też inne cechy istotne dla konkretnego problemu, w tym zwłaszcza dogodność obliczeniową.

W przypadku jednowymiarowym jako funkcję K przyjmuje się klasyczne postacie gęstości rozkładów probabilistycznych, na przykład gęstość rozkładu normalnego, Cauchy’ego, trójkątnego i inne. Najefektywniejszym w sensie kryterium błędu średniokwadratowego jest tak zwane jądro Epanecznikowa


f(x) =
 \begin{cases}
 \frac{3}{4}(1-x^2) & \mbox{dla } x \in [-1,1]\\
 0 & \mbox{dla } x\in(-\infty,-1)\cup(1,\infty)
 \end{cases}.
(3)

W przypadku wielowymiarowym stosuje się dwa naturalne uogólnienia powyższej koncepcji: jądro radialne


K(x) = C~\mathrm{K}(\sqrt{x^T x})
(4)

oraz jądro produktowe


K(x) = K\left(\left[x_1, x_2, ..., x_n\right]^T\right) = \mathrm{K}(x_1)\cdot\mathrm{K}(x_2)\cdot ... \cdot\mathrm{K}(x_n),
(5)

gdzie \mathrm{K} oznacza omówione uprzednio jądro jednowymiarowe, natomiast C jest dodatnią stałą, wyznaczoną tak aby spełniony był warunek \int_{\mathbb{R}^n}{K(x)dx}=1.

Dla dowolnie ustalonego jądra jednowymiarowego \mathrm{K}, bardziej efektywne jest jądro radialne niż produktowe, lecz z aplikacyjnego punktu widzenia różnica jest nieznaczna. Fakt ten powoduje, iż w praktycznych zastosowaniach nierzadko preferuje się jądro produktowe. Poza szczególnymi zastosowaniami statystycznymi, jest ono bowiem znacznie dogodniejsze w dalszej analizie – na przykład procedury całkowania i różniczkowania jądra produktowego niewiele różnią się od przypadku jednowymiarowego. Wśród jąder radialnych najefektywniejsze jest radialne jądro Epanecznikowa, czyli definiowane zależnością (4) gdy \mathrm{K} dane jest wzorem (3). Także w rodzinie jąder produktowych, najefektywniejsze okazuje się produktowe jądro Epanecznikowa, określone przez formuły (5) oraz (3).

Możliwość znacznej elastyczności przy doborze postaci jądra K stanowi istotną praktyczną zaletę, ujawniającą się proporcjonalnie do złożoności konkretnego zastosowania.[4][5]

Określenie wartości parametru wygładzania[edytuj | edytuj kod]

W przeciwieństwie do postaci jądra, przyjęta wartość parametru wygładzania ma istotny wpływ na jakość otrzymanego estymatora jądrowego. Zbyt mała wartość parametru h powoduje pojawienie się znacznej ilości ekstremów lokalnych estymatora \hat{f}, co jest sprzeczne z faktycznymi własnościami realnych populacji. Z drugiej strony, za duże wartości skutkują nadmiernym wygładzeniem tego estymatora, maskującym specyficzne cechy badanego rozkładu.

Opracowane zostały dogodne algorytmy umożliwiające obliczenie zbliżonej do optymalnej (z minimalnym błędem średniokwadratowym) wartości h, na podstawie próby losowej (1). Uniwersalną jest metoda cross-validation[6], w ramach której wyznacza się wartość realizującą minimum rzeczywistej funkcji g : (0,\infty) \to \mathbb{R} zdefiniowanej równością


g(x) = \frac{1}{m^2 h^n}\sum\limits_{i=1}^m \sum\limits_{j=1}^m \tilde{K}\left(\frac{x_j-x_i}{h}\right) + \frac{2}{m h^n} K(0),
(6)

przy czym \tilde{K}(x)=K^{*2}(x)-2K(x), gdzie K^{*2}(x) oznacza kwadrat splotowy funkcji K. Dla szczególnych przypadków opracowano także szereg specjalistycznych algorytmów, przykładowo prostą i efektywną metodę plug-in stosowaną do przypadku jednowymiarowego.

Możliwość zmiany i odejście od optymalnej wartości parametru wygładzania może być wykorzystywane na przykład przy stosowaniu estymatorów jądrowych do zagadnień eksploracji danych, między innymi w procedurach klasteryzacji do wpływania na potencjalną liczbę skupień.[7]

Dodatkowe uwagi i komentarze[edytuj | edytuj kod]

Zaprezentowana powyżej podstawowa postać estymatora jądrowego (2) może być w praktyce uogólniona w celu generalnej poprawy jego własności oraz ewentualnie uzupełniana o dodatkowe aspekty dopasowujące model do badanej rzeczywistości.

Uogólnienie może przyjąć np. formę transformacji liniowej i modyfikacji parametru wygładzania, natomiast uzupełnienie może obejmować ograniczenie nośnika estymatora oraz uwzględnienie współrzędnych binarnych i skategoryzowanych.

Transformacja liniowa[edytuj | edytuj kod]

Transformacja liniowa jest raczej typowa dla analizy wielowymiarowych danych. Dzięki niej macierz kowariancji staje się jednostkowa, co znacznie uproszcza interpretację zarówno poszczególnych współrzędnych jak i ich współzależności.

Modyfikacja parametru wygładzania[edytuj | edytuj kod]

W zagadnieniach aplikacyjnych, jakość estymatora jądrowego można zwiększyć stosując tzw. modyfikację parametru wygładzania. Powoduje ona, że w rejonach "zagęszczenia" elementów próby losowej poszczególne jądra ulegają "wyszczupleniu" (co pozwala lepiej uwidoczniać specyficzne cechy rozkładu), w przeciwieństwie do obszarów, w których elementy te są "rzadkie" gdzie jądra ulegają spłaszczeniu (co m.in. powoduje dodatkowe "wygładzenie" tzw. "ogonów"). Intensywność działania tej procedury ustalana jest pojedynczym parametrem, którego zmiana wartości daje istotne i nietrywialne możliwości w złożonych procedurach analizy i eksploracji danych. Co więcej, modyfikacja parametru wygładzania zmniejsza różnicę efektywności poszczególnych typów jąder względem optymalnego jądra Epanecznikowa (3), podobnie jak w przypadku wielowymiarowym zmniejsza różnicę efektywności jądra produktowego (5) względem radialnego (4).

Powyższe własności są cenne w praktycznych zastosowaniach, gdyż dodatkowo zwiększają możliwość preferencji jąder korzystnych dla dalszej analizy w konkretnych zadaniach aplikacyjnych.

Wymagana liczność próby[edytuj | edytuj kod]

Niezbędna liczność próby m (wzór (1)) zależy przede wszystkim od wymiaru badanej zmiennej losowej. W celu zapewnienia 10-procentowej dokładności w punkcie zero dla n-wymiarowego standardowego rozkładu normalnego można w przybliżeniu przyjąć jako m_*=4^n. Ze względu na szczególną regularność powyższego rozkładu oraz znaczny liberalizm przyjętego kryterium, wartości te wydają się stanowić bezwzględne minimum (sugeruje to na przykład m_*=1 dla n=1).

W praktyce uzyskany wynik mnoży się przez heurystycznie określane współczynniki związane z koniecznością polepszenia jakości estymacji, wielomodalnością i niesymetrią rozkładu oraz korelacją elementów próby losowej. Iloczyn tych współczynników osiąga najczęściej wartości z przedziału 3-10, ale w ekstremalnych przypadkach nawet 100.

Dla jednowymiarowej zmiennej losowej, wymagana liczność próby wynosi w praktyce 20-50, odpowiednio zwiększając się wraz ze wzrostem wymiaru zmiennej. Jednak dzięki współczesnej technice komputerowej, nawet w złożonych zagadnieniach wielowymiarowych i przy niesprzyjających cechach rozkładów, nie musi to obecnie stanowić istotnej przeszkody aplikacyjnej, zwłaszcza dzięki możliwościom stosowania procedur redukcji wymiaru n i liczności próby m. Zawsze należy bowiem brać pod uwagę znaczące korzyści wynikające ze stosowania estymatorów jądrowych. Umożliwiają one bowiem identyfikację praktycznie dowolnego występującego w zadaniach aplikacyjnych rozkładu, aczkolwiek wymagają stosownej liczności próby, adekwatnej do mnogości i wszechstronności zawartej w nich informacji.

Zastosowania do zagadnień pokrewnych[edytuj | edytuj kod]

Dogodna postać estymatorów jądrowych i łatwość ich interpretacji umożliwia użyteczne uogólnienia oraz zmiany dogodne z punktu widzenia konkretnego zadania. Przykładowo, podstawową postać (2) można uzupełnić o nieujemne, nie wszystkie równe zeru współczynniki w_i przy i=1, 2, ..., m, które interpretuje się jako znaczenie lub reprezentatywność poszczególnych elementów próby losowej (1). Wtedy:


\hat{f}(x) = \frac{1}{h^n \sum\limits_{i=1}^m w_i}\sum_{i=1}^{m} w_i K\left(\frac{x-x_i}{h}\right)\ .
(7)

Odpowiedni dobór wartości parametrów w_i umożliwia znaczące polepszenie wyników analizy danych, na przykład w zagadnieniu klasyfikacji.

Estymator jądrowy gęstości może być także podstawą do wyznaczenia innych charakterystyk funkcyjnych oraz parametrów. Na przykład, jeśli w przypadku jednowymiarowym zostanie wybrane takie jądro K, aby istniała analityczna postać jego pierwotnej I(x)=\int^x_{-\infty}K(y)dy, to zdefiniować można estymator dystrybuanty


\hat{F}(x) = \frac{1}{m}\sum_{i=1}^{m} I\left(\frac{x-x_i}{h}\right)\ .
(8)

Z kolei, jeżeli jądro K ma dodatnie wartości, to rozwiązanie równania


\hat{F}(x) = r ,
(9)

stanowi jądrowy estymator kwantyla \hat{q} stopnia r\in(0,1).

Analogicznie do estymatora gęstości rozkładu zmiennej losowej, formułowana jest koncepcja jądrowego estymatora gęstości widmowej, a także jądrowego estymatora funkcji regresji. Zgodnie z generalną zasadą estymatorów jądrowych, funkcja ta jest wyznaczana bez założeń arbitralnie ustalających jej postać, na przykład jako liniową lub logarytmiczną.

Przypisy

  1. 1,0 1,1 P. Kulczycki, C. Prochot, Wykrywanie elementów odosobnionych za pomocą metod estymacji nieparametrycznej (podrozdział w: R. Kulikowski, J. Kacprzyk, R. Słowiński (red.), Badania operacyjne i systemowe: podejmowanie decyzji – podstawy teoretyczne i zastosowania”, EXIT, Warszawa, 2004)
  2. Bartłomiej Stępień, Estymacja niepewności wskaźników zagrożeń hałasowych środowiska, Rozprawa doktorska, Akademia Górniczo-Hutnicza im. Stanisława Staszica, Kraków, 2010
  3. Używając coraz częściej ostatnio stosowanej nomenklatury analizy danych można równoważnie stwierdzić: rozkładu cechy populacji na podstawie zaobserwowanych jej wartości.
  4. P. Kulczycki, Kernel Estimators in Industrial Applications, rozdział w B. Prasad (red.), Soft Computing Applications in Industry, Springer-Verlag, Berlin, 2008
  5. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, The Complete Gradient Clustering Algorithm: Properties in Practical Applications, Journal of Applied Statistics, Vol. 39, 2012.
  6. D.W. Scott, G.R. Terrell, Biased and unbiased cross-Validation in density estimation, Journal of the American Statistical Association, Vol. 82 (400), 1987
  7. P. Kulczycki, M. Charytanowicz, A Complete Gradient Clustering Algorithm Formed with Kernel Estimators, International Journal of Applied Mathematics and Computer Science, Vol. 20, 2010

Bibliografia[edytuj | edytuj kod]

  • Kulczycki P. (2005) Estymatory jądrowe w analizie systemowej. WNT, Warszawa.
  • Kulczycki P., Hryniewicz O., Kacprzyk J. /red./ (2007) Techniki informacyjne w badaniach systemowych, WNT, Warszawa.
  • Silverman B.W. (1986) Density Estimation for Statistics and Data Analysis. Chapman and Hall, London.
  • Wand M.P., Jones M.C. (1994) Kernel Smoothing. Chapman and Hall, London.
  • Wasserman L. (2007) All of Nonparametric Statistics, Springer, New York.

Zobacz też[edytuj | edytuj kod]