Rozkład Hotellinga

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

W statystyce, statystyka T² Hotelling'a[1], nazwana od Harolda Hotellinga, jest uogólnieniem rozkładu Studenta, który jest używany do testowania hipotez wielowymiarowych.

Statystyka Hotellinga jest definiowana jako:


t^2=n({\mathbf x}-{\mathbf\mu})'{\mathbf W}^{-1}({\mathbf x}-{\mathbf\mu})
,

gdzie n jest liczbą obserwacji, {\mathbf x} jest p-wymiarową kolumną wektorową, a {\mathbf W} jest p\times p macierzą kowariancji.

Jeśli x\sim N_p(\mu,{\mathbf V}) jest zmienną losową z wielowymiarowego rozkładu Gaussa i {\mathbf W}\sim W_p(m,{\mathbf V}) (niezależne od x) ma rozkład Wisharta z taką samą macierzą wariancji \mathbf V oraz z m=n-1, wówczas rozkład t^2 jest T^2(p,m), rozkładem T² Hotellinga z parametrami p i m. Można pokazać, że:


\frac{m-p+1}{pm}
T^2\sim F_{p,m-p+1}
,

gdzie F jest Rozkładem F Snedecora.

Teraz załóżmy, że

{\mathbf x}_1,\dots,{\mathbf x}_n

jest p×1 kolumną wektorową, której wartościami są liczby rzeczywiste. Załóżmy, że

\overline{\mathbf x}=(\mathbf{x}_1+\cdots+\mathbf{x}_n)/n

są ich średnią. Niech p×p będzie macierzą dodatnie określoną

{\mathbf W}=\sum_{i=1}^n (\mathbf{x}_i-\overline{\mathbf x})(\mathbf{x}_i-\overline{\mathbf x})'/(n-1)

jest macierzą "przykładowych wariancji". (Transpozycja jakiejkolwiek mcierzy M jest oznaczona jako M′). Niech μ będzie znanym p×1 wektorem. Wówczas statystyka Hotellinga przyjmuje postać:


t^2=n(\overline{\mathbf x}-{\mathbf\mu})'{\mathbf W}^{-1}(\overline{\mathbf x}-{\mathbf\mu}).

Warto zauważyć, że t^2 jest blisko powiązona z kwadratem odległością Mahalanobisa.

W szczególności mże to być pokazane poprzez:[2] Jeśli {\mathbf x}_1,\dots,{\mathbf x}_n\sim N_p(\mu,{\mathbf V}), są niezależne, i \overline{\mathbf x} i {\mathbf W} są jak zdefiniowano powyżej, wówczas {\mathbf W} ma rozkład Wisharta z n − 1 stopniami swobody

\mathbf{W} \sim W_p(V,n-1)

i jest niezależna od \overline{\mathbf x}, oraz

\overline{\mathbf x}\sim N_p(\mu,V/n).

To oznacza, że:

t^2 = n(\overline{\mathbf x}-{\mathbf\mu})'{\mathbf W}^{-1}(\overline{\mathbf x}-{\mathbf\mu}) \sim T^2(p, n-1).

Statystyka T² Hotellinga dla dwóch prób[edytuj | edytuj kod]

Jeśli {\mathbf x}_1,\dots,{\mathbf x}_{n_x}\sim N_p(\boldsymbol{\mu},{\mathbf V}) oraz {\mathbf y}_1,\dots,{\mathbf y}_{n_y}\sim N_p(\boldsymbol{\mu}_Y,{\mathbf V}), są próbkami niezależnymi wyciągniętymi z dwóch niezależnych wielowymiarowych rozkładów Gaussa o takiej samej średniej oraz kowariancji, i definiujemy

\overline{\mathbf x}=\frac{1}{n_x}\sum_{i=1}^{n_x} \mathbf{x}_i \qquad \overline{\mathbf y}=\frac{1}{n_y}\sum_{i=1}^{n_y} \mathbf{y}_i

jako średnie próbek, oraz

{\mathbf W}= \frac{\sum_{i=1}^{n_x}(\mathbf{x}_i-\overline{\mathbf x})(\mathbf{x}_i-\overline{\mathbf x})'
+\sum_{i=1}^{n_y}(\mathbf{y}_i-\overline{\mathbf y})(\mathbf{y}_i-\overline{\mathbf y})'}{n_x+n_y-2}

jako estymator nieobciążonej macierzy kowariancji, wówczas Statystyka T² Hotellinga dla dwóch prób wygląda tak:

t^2 = \frac{n_x n_y}{n_x+n_y}(\overline{\mathbf x}-\overline{\mathbf y})'{\mathbf W}^{-1}(\overline{\mathbf x}-\overline{\mathbf y})
\sim T^2(p, n_x+n_y-2)

i może być przedstawiona w postaci rozkładu F-Snedecora:

\frac{n_x+n_y-p-1}{(n_x+n_y-2)p}t^2 \sim F(p,n_x+n_y-1-p).[2]

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. H. Hotelling (1931) The generalization of Student's ratio, Ann. Math. Statist., Vol. 2, pp 360–378.
  2. 2,0 2,1 K.V. Mardia, J.T. Kent, and J.M. Bibby (1979) Multivariate Analysis, Academic Press.