Ranga (statystyka)

Z Wikipedii, wolnej encyklopedii

Ranga – numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.

Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.

Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Rangi wiązane[edytuj | edytuj kod]

W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.

Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.

  • przez przypisanie im największego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia średnią wyniku),
  • przez przypisanie numerów kolejnych bez zważania na rangi wiązane (wówczas wyniki rangowania zależą nie tylko od wartości rangowanej zmiennej, ale i od kolejności obserwacji w tabeli).

Przykład[edytuj | edytuj kod]

W pięcioelementowej próbie[1] znajdują się następujące obserwacje zmiennej

Po posortowaniu według wartości x, uzyskujemy kolejność:

Jak widać obserwacje i mają tę samą wartość zmiennej Rangi zmiennej

Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:

Rozkład rang[edytuj | edytuj kod]

Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:

Wariancja rang wynosi:

gdzie:

jest liczbą obserwacji w próbie posiadających tę samą -tą wartość rangi zmiennej a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych

Gdy nie ma rang wiązanych, jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangoweodporne na obserwacje odstające.

Rangi regularne, ułamkowe i procentowe[edytuj | edytuj kod]

Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe, czyli rangi ułamkowe wyrażone w procentach.

Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).

Przekształcanie rang[edytuj | edytuj kod]

Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.

Dla rozkładu normalnego stosowane są wzory:

  • Bloma[2] (najdokładniejsze z wymienionych):
  • Van der Waerdena (używane do nieparametrycznych testów położenia):

gdzie:

  • odwrotna dystrybuanta rozkładu normalnego,
  • – ranga -tej obserwacji,
  • – liczba niepustych obserwacji w danej zmiennej.

W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.

Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych itp.).

Aby otrzymać rozkład wykładniczy stosuje się wzór Savage’a:

Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[4].

Dla testów skali stosowane są też inne przekształcenia rang:

  • Klotza:
  • Siegela-Tukeya, obliczane według schematu:
dla
dla
dla
dla
dla
dla
dla
dla
itd.
  • Ansari-Bradleya:
  • Mooda:

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.
  2. G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958.
  3. John W. Tukey. The Future of Data Analysis. „Annals of Mathematical Statistics”. 33, 22, 1962. 
  4. J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83.

Bibliografia[edytuj | edytuj kod]

  • Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948.
  • Pomoc do programu SAS