Tau Kendalla

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Tau Kendallastatystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych.

Tau Kendalla dwóch zmiennych losowych[edytuj | edytuj kod]

Ogólnie tau Kendalla jest definiowane jako[1]:

\tau=\operatorname{P}[(x_1-x_2)(y_1-y_2)>0]-\operatorname{P}[(x_1-x_2)(y_1-y_2)<0]
(1)

Można też wyrazić tau Kendalla w terminach kopuł[1]:

\tau=4\int\limits_0^1\int\limits_0^1 C(u_1,u_2)\operatorname{d}C(u_1,u_2)-1

Tau Kendalla z próby[edytuj | edytuj kod]

Zwykle estymuje się tau Kendalla dane wzorem (1) na podstawie próby statystycznej.

Aby je obliczyć, należy zestawić obserwacje z próby we wszystkie możliwe pary, a następnie podzielić te pary na trzy możliwe kategorie:

  • pary zgodne – porównywane zmienne w obrębie tych dwoch obserwacji zmieniają się w tę samą stronę, tzn. albo w pierwszej obserwacji obydwie są większe niż w drugiej, albo obydwie mniejsze. Liczba takich par w próbie będzie dalej oznaczana przez P.
  • pary niezgodne – zmienne zmieniają się w przeciwną stronę, to znaczy jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Liczba takich par w próbie będzie oznaczana przez Q.
  • pary wiązane – jedna ze zmiennych ma równe wartości w obydwu obserwacjach. Liczba takich par w próbie będzie oznaczana przez T.

Estymator tau Kendalla obliczany jest wówczas ze wzoru:

\tau=\frac{P-Q}{P+Q+T}

Warto zauważyć, że:

P+Q+T={N\choose 2}=\frac{N(N-1)}{2}

gdzie N to liczność próby, tak więc wzór ten można przedstawić w postaci:

\tau=2\frac{P-Q}{N(N-1)}

Interpretacja[edytuj | edytuj kod]

Tau Kendalla stanowi różnicę między prawdopodobieństwem, że porównywane zmienne będą układały się w tym samym porządku dla dwóch obserwacji, a prawdopodobieństwem, że ułożą się w przeciwnym porządku.

Tau Kendalla przyjmuje wartości od -1 do 1 włącznie. +1 oznacza, że każda ze zmiennych rośnie przy wzroście drugiej. -1 oznacza że każda maleje przy wzroście drugiej. Tym samym tau Kendalla, podobnie jak korelacja rangowa i rho Spearmana jest miarą monotonicznej zależności zmiennych losowych.

Ponieważ liczba par zgodnych, niezgodnych i wiązanych, a zatem również wartość tau nie zmienia się pod wpływem rangowania, tau Kendalla można uważać za jedną ze statystycznych metod rangowych.

Istotność statystyczna[edytuj | edytuj kod]

Istotność statystyczna wyniku tau Kendalla jest równa jeden minus prawdopodobieństwo, że taki wynik może powstać przypadkowo dla zmiennych niezależnych. Ponieważ tau Kendalla jest metodą rangową, a rozkład rang jest niezależny od rozkładu zmiennych rangowanych (o ile nie ma rang wiązanych), więc określenie istotności nie wymaga żadnych założeń odnośnie rozkładów w próbie.

Dla małych prób tablice podają Siegel i Castellan (1988). Rozkład tau bardzo szybko dąży do rozkładu normalnego, więc dla prób N\ge 10 można już stosować rozkład normalny (Hays 1988).

Wersje[edytuj | edytuj kod]

Tau Kendalla ma dobrą interpretację i właściwości statystyczne, jednak Wartości 1 i -1 nie wystąpią, gdy którakolwiek z porównywanych zmiennych ma tę samą wartość dla dwóch obserwacji. Intuicyjnie wydawałoby się, że miara pokazująca zależność dwóch zmiennych powinna dawać maksymalną wartość (czyli tu 1) jeśli porównamy jakąś zmienną z nią samą. W przypadku tau Kendalla nie będzie to jednak prawda, o ile zmienna przyjmie dla dwóch obserwacji tę samą wartość.

Zaproponowano szereg innych estymatorów z próby tau Kendalla, które nie mają tej właściwości. Dwa z nich, nazywane są tau-b i tau-c. Dla odróżnienia miara opisana wcześniej nazywana bywa tau-a. Miary te różnią się wartością tylko w przypadku występowania par wiązanych. W praktyce tau-b i tau-c są jednak rzadziej stosowane niż tau-a.

Związki z innymi miarami[edytuj | edytuj kod]

Współczynnik korelacji[edytuj | edytuj kod]

Współczynnik korelacji Pearsona służy do oceny liniowej zależności pomiędzy dwiema zmiennymi. Tau Kendalla mierzy zależność monotoniczną. Współczynniki te mierzą co innego, więc ich wartości nie są bezpośrednio porównywalne.

Tau Kendalla jako metoda rangowa jest odporne na obserwacje odstające, w przeciwieństwie do współczynnika korelacji.

Tau Kendalla jako metoda nieparametryczna nie czyni żadnych założeń dotyczących rozkładu zmiennych w populacji, nadaje się zatem do dowolnych rozkładów. Współczynnik korelacji ma poprawne wyprowadzenie matematyczne tylko dla wielowymiarowego rozkładu normalnego, dla innych rozkładów może nie mieć sensownej interpretacji, niepoprawnie działają również testy istotności statystycznej.

Rho Spearmana[edytuj | edytuj kod]

Tau Kendalla i rho Spearmana to dwie miary zależności monotonicznej zmiennych losowych. Inne jest jednak ich wyprowadzenie i interpretacja. Tau Kendalla należy interpretować w kategoriach prawdopodobieństwa, natomiast rho Spearmana należy interpretować w kategoriach procentu wariancji rang jednej zmiennej, wyjaśnianej przez drugą zmienną.

Między tymi wartościami zachodzi nierówność[2][1]:

\frac{3}{2}\tau-\frac{1}{2}\leqslant \rho\leqslant \frac{1}{2}+\tau-\frac{1}{2}\tau^2\ \operatorname{dla}\ \tau\geqslant 0
\frac{1}{2}\tau^2+\tau-\frac{1}{2}\leqslant \rho\leqslant \frac{3}{2}\tau+\frac{1}{2}\ \operatorname{dla}\ \tau\leqslant 0

Podawane jest też[3][4] grubsze oszacowanie: -1\geq3\tau-2\rho_s\geq1

Można też pokazać, że jeśli przedstawimy łączny rozkład dwuwymiarowy zmiennych X i Y w postaci unormowanej do 1 macierzy prawdopodobieństwa m\times k o elementach [p_{ij}]\ , wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z minorów stopnia drugiego (Kowalczyk 2000):

\tau=\sum_{i=1}^{m-1}\sum_{q=i+1}^{m}\sum_{j=1}^{k-1}\sum_{r=j+1}^{k} 2\begin{vmatrix}
p_{ij} & p_{ir}\\
p_{qj} & p_{qr}
\end{vmatrix}
\rho=\sum_{i=1}^{m-1}\sum_{q=i+1}^{m}\sum_{j=1}^{k-1}\sum_{r=j+1}^{k} w_{ijqr}\begin{vmatrix}
p_{ij} & p_{ir}\\
p_{qj} & p_{qr}
\end{vmatrix}

gdzie:

w_{ijqr}=12\left( \operatorname{Sc}_{row}(q)-\operatorname{Sc}_{row}(i)\right)  \left( \operatorname{Sc}_{col}(r)-\operatorname{Sc}_{col}(j)\right)

a \operatorname{Sc}_{row} i \operatorname{Sc}_{col} to tzw. skory gradacyjne (grade scores):

\operatorname{Sc}_{row}(i)=\left( \sum_{a=1}^{i-1}\sum_{b=1}^{k}p_{ab}\right) +\frac{1}{2}\sum_{b=1}^{k}p_{ib}
\operatorname{Sc}_{col}(j)=\left( \sum_{a=1}^{m}\sum_{b=1}^{j-1}p_{ab}\right) +\frac{1}{2}\sum_{a=1}^{m}p_{aj}

Analiza odpowiedniości oparta na tau[edytuj | edytuj kod]

Klasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. scory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona między tymi zmiennymi.

Zespół prof. Elżbiety Pleszczyńskiej opracował odpowiedniki klasycznej analizy odpowiedniości, zwane gradacyjną analizą odpowiedniości (GCA), które maksymalizują rho Spearmana oraz tau Kendalla[5].

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. 1,0 1,1 1,2 Pravin K. Trivedi, David M. Zimmer. Copula Modeling: An Introduction for Practitioners. „Foundations and Trends in Econometrics”. Volume 1 Issue 1 DOI:10.1561/0800000005. 
  2. J. Durbin, A. S. Stuart. Inversions and rank correlations. „Journal of Royal Statistical Society Series”. B 2, s. 303-309, 1951. 
  3. H.E. Daniels: Rank correlation and population models. J R Statist Soc B (1950), 171-181.
  4. Siegel i Castellan (1988)
  5. T. Kowalczyk, E. Pleszczyńska, F. Ruland, (red.): Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151. ISBN 9783540211204.

Bibliografia[edytuj | edytuj kod]

  • H. Abdi: [1] Kendall rank correlation. w N.J. Salkind (red.): Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage., 2007.
  • H.E. Daniels: Rank correlation and population models. J R Statist Soc B, 171-181, 1950.
  • B. S. Everitt: The analysis of contingency tables. Londyn: Chapman & Hall, 1977.
  • W. L. Hays: Statistics. Wyd. 4. Nowy Jork: CBS College Publishing, 1988.
  • M. G. Kendall: A New Measure of Rank Correlation. 1938. Biometrika, 30, 81-89.
  • M. G. Kendall: Rank Correlation Methods. Wyd. 1. Londyn: Charles Griffin & Company Limited, 1948.
  • Teresa Kowalczyk: Link between grade measures of dependence and of separability of pairs of conditional distributions. Statistics and Probability Letters 46 (2000), 371-379.
  • W. H. Kruskal: Ordinal Measures of Association. 1958. Journal of the American Statistical Association, 53(284), 814-861.
  • S. Siegel, N. J. Castellan: Nonparametric statistics for the behavioral sciences. Wyd. 2. Nowy Jork: McGraw-Hill, 1988.
  • Statsoft: Statistica Electronic Manual