Rozkład Hotellinga

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Statystyka T² Hotellinga[1] – uogólnienie rozkładu Studenta, który jest używany do testowania hipotez wielowymiarowych. Nazwa pochodzi od Harolda Hotellinga.

Statystyka Hotellinga jest definiowana jako:


t^2=n({\mathbf x}-{\mathbf\mu})'{\mathbf W}^{-1}({\mathbf x}-{\mathbf\mu})
,

gdzie n jest liczbą obserwacji, {\mathbf x} jest p-wymiarową kolumną wektorową, a {\mathbf W} jest p\times p macierzą kowariancji.

Jeśli x\sim N_p(\mu,{\mathbf V}) jest zmienną losową z wielowymiarowego rozkładu Gaussa i {\mathbf W}\sim W_p(m,{\mathbf V}) (niezależne od x) ma rozkład Wisharta z taką samą macierzą wariancji \mathbf V oraz z m=n-1, wówczas rozkład t^2 jest T^2(p,m), rozkładem T² Hotellinga z parametrami p i m. Można pokazać, że:


\frac{m-p+1}{pm}
T^2\sim F_{p,m-p+1}
,

gdzie F jest Rozkładem F Snedecora.

Teraz załóżmy, że

{\mathbf x}_1,\dots,{\mathbf x}_n

jest p×1 kolumną wektorową, której wartościami są liczby rzeczywiste. Załóżmy, że

\overline{\mathbf x}=(\mathbf{x}_1+\cdots+\mathbf{x}_n)/n

są ich średnią. Niech p×p będzie macierzą dodatnie określoną

{\mathbf W}=\sum_{i=1}^n (\mathbf{x}_i-\overline{\mathbf x})(\mathbf{x}_i-\overline{\mathbf x})'/(n-1)

jest macierzą "przykładowych wariancji". (Transpozycja jakiejkolwiek mcierzy M jest oznaczona jako M′). Niech μ będzie znanym p×1 wektorem. Wówczas statystyka Hotellinga przyjmuje postać:


t^2=n(\overline{\mathbf x}-{\mathbf\mu})'{\mathbf W}^{-1}(\overline{\mathbf x}-{\mathbf\mu}).

Warto zauważyć, że t^2 jest blisko powiązona z kwadratem odległością Mahalanobisa.

W szczególności mże to być pokazane poprzez:[2] Jeśli {\mathbf x}_1,\dots,{\mathbf x}_n\sim N_p(\mu,{\mathbf V}), są niezależne, i \overline{\mathbf x} i {\mathbf W} są jak zdefiniowano powyżej, wówczas {\mathbf W} ma rozkład Wisharta z n − 1 stopniami swobody

\mathbf{W} \sim W_p(V,n-1)

i jest niezależna od \overline{\mathbf x}, oraz

\overline{\mathbf x}\sim N_p(\mu,V/n).

To oznacza, że:

t^2 = n(\overline{\mathbf x}-{\mathbf\mu})'{\mathbf W}^{-1}(\overline{\mathbf x}-{\mathbf\mu}) \sim T^2(p, n-1).

Statystyka T² Hotellinga dla dwóch prób[edytuj | edytuj kod]

Jeśli {\mathbf x}_1,\dots,{\mathbf x}_{n_x}\sim N_p(\boldsymbol{\mu},{\mathbf V}) oraz {\mathbf y}_1,\dots,{\mathbf y}_{n_y}\sim N_p(\boldsymbol{\mu}_Y,{\mathbf V}), są próbkami niezależnymi wyciągniętymi z dwóch niezależnych wielowymiarowych rozkładów Gaussa o takiej samej średniej oraz kowariancji, i definiujemy

\overline{\mathbf x}=\frac{1}{n_x}\sum_{i=1}^{n_x} \mathbf{x}_i \qquad \overline{\mathbf y}=\frac{1}{n_y}\sum_{i=1}^{n_y} \mathbf{y}_i

jako średnie próbek, oraz

{\mathbf W}= \frac{\sum_{i=1}^{n_x}(\mathbf{x}_i-\overline{\mathbf x})(\mathbf{x}_i-\overline{\mathbf x})'
+\sum_{i=1}^{n_y}(\mathbf{y}_i-\overline{\mathbf y})(\mathbf{y}_i-\overline{\mathbf y})'}{n_x+n_y-2}

jako estymator nieobciążonej macierzy kowariancji, wówczas Statystyka T² Hotellinga dla dwóch prób wygląda tak:

t^2 = \frac{n_x n_y}{n_x+n_y}(\overline{\mathbf x}-\overline{\mathbf y})'{\mathbf W}^{-1}(\overline{\mathbf x}-\overline{\mathbf y})
\sim T^2(p, n_x+n_y-2)

i może być przedstawiona w postaci rozkładu F-Snedecora:

\frac{n_x+n_y-p-1}{(n_x+n_y-2)p}t^2 \sim F(p,n_x+n_y-1-p).[2]

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. H. Hotelling (1931) The generalization of Student's ratio, Ann. Math. Statist., Vol. 2, pp 360–378.
  2. a b K.V. Mardia, J.T. Kent, and J.M. Bibby (1979) Multivariate Analysis, Academic Press.