Test Kołmogorowa-Smirnowa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Test Kołmogorowa-Smirnowatest nieparametryczny używany do porównywania rozkładów jednowymiarowych cech statystycznych. Istnieją dwie główne wersje tego testu – dla jednej próby i dla dwóch prób.

Test dla jednej próby (zwany też testem zgodności λ Kołmogorowa) sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej, różni się od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji tej zmiennej (próba statystyczna). Często wykorzystywany jest on w celu sprawdzenia, czy zmienna ma rozkład normalny. Dla celów testowania normalności zostały dokonane w teście drobne usprawnienia, znane jako test Lillieforsa.

Istnieje też wersja testu dla dwóch prób, pozwalająca na porównanie rozkładów dwóch zmiennych losowych. Jego zaletą jest wrażliwość zarówno na różnice w położeniu, jak i w kształcie dystrybuanty empirycznej porównywanych próbek.

Statystyka Kołmogorowa-Smirnowa[edytuj | edytuj kod]

Dystrybuanta empiryczna F_n dla n-elementowej próby jest zdefiniowana jako funkcja:

F_n(x)={1 \over n}\sum_{i=1}^n I_{X_i\leqslant x}

gdzie:

  • X_i to wartość zmiennej X dla i-tej obserwacji.
  • I_{X_i\leqslant x} to funkcja charakterystyczna (tu: przyjmująca wartość jeden gdy X_i\leqslant x i zero w przeciwnym wypadku).

Statystyka Kołmogorowa-Smirnowa dla danej dystrybuanty teoretycznej F(x) jest dana wzorem:

D_n=\sup_x |F_n(x)-F(x)|,

Na mocy twierdzenia Gliwenki-Cantellego, jeśli próba pochodzi z rozkładu o dystrybuancie F(x), to D_n dąży prawie wszędzie do zera. Kołmogorow wzmocnił ten wynik stwarzając efektywną metodę oceny tej zbieżności (zobacz niżej). Twierdzenie Donskera dostarcza jednak jeszcze silniejszego wyniku.

Rozkład Kołmogorowa[edytuj | edytuj kod]

Rozkład Kołmogorowa to rozkład zmiennej losowej

K=\sup_{t\in[0,1]}|B(t)|,

gdzie B(t) jest mostem Browna. Dystrybuanta K jest dana przez

\operatorname{Pr}(K\leqslant x)=1-2\sum_{i=1}^\infty (-1)^{i-1} e^{-2i^2 x^2}=\frac{\sqrt{2\pi}}{x}\sum_{i=1}^\infty e^{-(2i-1)^2\pi^2/(8x^2)}.

Test dla jednej próby[edytuj | edytuj kod]

W warunkach hipotezy zerowej, gdy próba pochodzi z rozkładu teoretycznego F(x), wówczas:

\sqrt{n}D_n\xrightarrow{n\to\infty}\sup_t |B(F(t))|

(zbieżność według rozkładu), gdzie B(t) jest mostem Browna.

Jeśli F jest ciągła, wówczas w warunkach hipotezy zerowej \sqrt{n}D_n dąży do rozkładu Kołmogorowa, niezależnie od F. Ten wynik znany jest też jako twierdzenie Kołmogorowa.

Test Kołmogorowa-Smirnowa jest konstruowany z użyciem obszaru krytycznego rozkładu Kołmogorowa.

Hipoteza zerowa jest odrzucana na poziomie \alpha, jeśli

\sqrt{n}D_n>K_\alpha

gdzie K_\alpha jest dane przez:

\operatorname{Pr}(K\leqslant K_\alpha)=1-\alpha

Asymptotyczna moc tego testu wynosi 1. Jeśli forma lub parametry F(x) są wyznaczane z X_i, nierówność może nie być prawdziwa. W tym przypadku konieczne jest zastosowanie metody Monte Carlo lub innych algorytmów.

Bardziej znaną formą tego testu jest:

D_n> \frac{K_\alpha}{\sqrt{n}}

Test dla dwóch prób[edytuj | edytuj kod]

Test Kołmogorowa-Smirnowa może być także użyty do sprawdzenia, czy dwa jednowymiarowe rozkłady prawdopodobieństwa różnią się od siebie. W takim przypadku statystyką Kołmogorowa-Smirnowa jest:

D_{n,n'}=\sup_x |F_n(x)-F_{n'}(x)|

a hipoteza zerowa jest odrzucana na poziomie \alpha, gdy

\sqrt{\frac{n n'}{n + n'}}D_{n,n'}>K_\alpha

Przedział ufności dla kształtu dystrybuanty[edytuj | edytuj kod]

Chociaż test Kołmogorowa-Smirnowa jest zwykle używany do sprawdzania, czy dana dystrybuanta teoretyczna F(x) opisuje rozkład populacji, z której wylosowano próbę o dystrybuancie empirycznej F_n(x), jednak procedura może być odwrócona w celu uzyskania przedziału ufności dla samej funkcji F(x). Wybierając wartość krytyczną dla statystyki testowej D_\alpha taką, że P(D_n > D_\alpha) = \alpha, uzyskujemy pas o promieniu D_\alpha wokół F_n(x), który całkowicie zawiera F(x) z prawdopodobieństwem 1-\alpha.

Zobacz też[edytuj | edytuj kod]

Bibliografia[edytuj | edytuj kod]

  • W.T. Eadie, D. Drijard, F.E. James, M. Roos, B. Sadoulet: Statistical Methods in Experimental Physics. Amsterdam: North-Holland, 1971, s. 269-271.
  • Alan Stuart, Keith Ord, Steven Arnold: Kendall's Advanced Theory of Statistics. T. 2A. London: Arnold, a member of the Hodder Headline Group, 1999, s. 25.37-25.43.

Linki zewnętrzne[edytuj | edytuj kod]