Ranga (statystyka)

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Ranga – w najprostszej wersji numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.

Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.

Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Rangi wiązane[edytuj | edytuj kod]

W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.

Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.

  • przez przypisanie im największego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia średnią wyniku),
  • przez przypisanie numerów kolejnych bez zważania na rangi wiązane (wówczas wyniki rangowania zależą nie tylko od wartości rangowanej zmiennej, ale i od kolejności obserwacji w tabeli).

Przykład[edytuj | edytuj kod]

W pięcioelementowej próbie[1] znajdują się następujące obserwacje zmiennej x:

x_1=0{,}96;\ x_2=2{,}43;\ x_3=0{,}96;\ x_4=0{,}2;\ x_5=3{,}5\;

Po posortowaniu według wartości x, uzyskujemy kolejność:

x_4=0{,}2;\ x_1=0{,}96;\ x_3=0{,}96;\ x_2=2{,}43;\ x_5=3{,}5\;

Jak widać obserwacje x_1 i x_3 mają tę samą wartość zmiennej x. Rangi zmiennej x:

r_4=1;\ r_1=2{,}5;\ r_3=2{,}5;\ r_2=4;\ r_5=5\;

Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:

r_1=2{,}5;\ r_2=4;\ r_3=2{,}5;\ r_4=1;\ r_5=5\;

Rozkład rang[edytuj | edytuj kod]

Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:

\overline{r}=\frac{n+1}{2}

Wariancja rang wynosi:

\operatorname{var}\ \operatorname{r}=\frac{n(n+1)}{12}-\frac{T^\prime}{n-1}

gdzie:

T^\prime=\frac{1}{12}\sum_j (t_j^3-t_j)
t_j\; jest liczbą obserwacji w próbie posiadających tę samą j-tą wartość rangi zmiennej X a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych t_j^3-t_j=1^3-1=0.

Gdy nie ma rang wiązanych, T^\prime jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangoweodporne na obserwacje odstające.

Rangi regularne, ułamkowe i procentowe[edytuj | edytuj kod]

Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe czyli rangi ułamkowe wyrażone w procentach.

Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).

Przekształcanie rang[edytuj | edytuj kod]

Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.

Dla rozkładu normalnego stosowane są wzory:

  • Bloma[2] (najdokładniejsze z wymienionych):
y_i=\Phi^{-1}\left( \frac{r_i-\tfrac{3}{8}}{n+\tfrac{1}{4}}\right)
y_i=\Phi^{-1}\left( \frac{r_i-\tfrac{1}{3}}{n+\tfrac{1}{3}}\right)
  • Van der Waerdena (używane do nieparametrycznych testów położenia):
y_i=\Phi^{-1}\left( \frac{r_i}{n+1}\right)

gdzie:

W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.

Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych, itp.).

Aby otrzymać rozkład wykładniczy stosuje się wzór Savage'a:

y_i=\sum\limits_{j=1}{r_i}\frac{1}{n-j+1}-1

Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[4].

Dla testów skali stosowane są też inne przekształcenia rang:

  • Klotza:
y_i=\left( \Phi^{-1}\left( \frac{r_i}{n+1}\right) \right) ^2
  • Siegela-Tukeya, obliczane według schematu:
y_i=1 dla r_i=1
y_i=2 dla r_i=n
y_i=3 dla r_i=n-1
y_i=4 dla r_i=2
y_i=5 dla r_i=3
y_i=6 dla r_i=n-2
y_i=7 dla r_i=n-3
y_i=8 dla r_i=4
itd.
  • Ansari-Bradleya:
y_i=\frac{n+1}{2}-\left| r_i-\frac{n+1}{2}\right|
  • Mooda:
y_i=\left( r_i-\frac{n+1}{2}\right) ^2

Przypisy

  1. Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.
  2. G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958.
  3. John W. Tukey. The Future of Data Analysis. „Annals of Mathematical Statistics”, 1962. 
  4. J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83.

Bibliografia[edytuj | edytuj kod]

  • Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948.
  • Pomoc do programu SAS

Zobacz też[edytuj | edytuj kod]