Wielowymiarowy rozkład normalny

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Dwuwymiarowy rozkład normalny

Wielowymiarowy rozkład normalnyrozkład wielowymiarowej zmiennej losowej, będący uogólnieniem rozkładu normalnego na n wymiarów.

Definicja[edytuj | edytuj kod]

n-wymiarowa zmienna losowa X = [x_1, \ldots, x_n]^T podlega n-wymiarowemu rozkładowi normalnemu jeśli dowolna kombinacja liniowa Y = a_1x_1 + \ldots + a_nx_n jej składowych ma rozkład normalny.

Funkcja gęstości n-wymiarowego rozkładu normalnego wektora losowego X\, o wektorze wartości oczekiwanych \boldsymbol{\mu} = [\mu_1, \ldots, \mu_n]^T i macierzy kowariancji \Sigma\, dana jest wzorem:


f_{\boldsymbol{\mu}, \Sigma}(X)= \frac {1}{(2\pi)^{n/2} \left|\Sigma\right|^{1/2}}
\exp\left( -\frac{1}{2} (X - \boldsymbol{\mu})^T \Sigma^{-1} (X - \boldsymbol{\mu})\right)

Oznacza się to w skrócie zapisem

X \sim N(\boldsymbol{\mu},\Sigma)

Niezależność zmiennych[edytuj | edytuj kod]

Dla wielowymiarowego rozkładu normalnego jeśli składowe wektora losowego X\, o wielowymiarowym rozkładzie normalnym są niezależne to są nieskorelowane i odwrotnie, jeśli są nieskorelowane to są niezależne. Wówczas funkcja gęstości wektora losowego X\, jest iloczynem funkcji gęstości każdej ze zmiennych:


f_{\boldsymbol{\mu}, \Sigma}(X)= \prod_{i=1}^n f_{\mu_i,\sigma_i}(x_i)

Zmienne losowe (nawet nieskorelowane) o rozkładzie normalnym nie muszą razem tworzyć wektora o wielowymiarowym rozkładzie normalnym. Wówczas powyższa zależność nie musi być prawdziwa. Na przykład, niech x \sim N(0,1)\,, niech w\, będzie zmienną losową przyjmującą wartości 1 i -1 z równym prawdopodobieństwem 0.5, niezależną od x \,, oraz niech y = wx\,. Wówczas x \, i y\, są nieskorelowane, normalne, ale są zależne. Nie tworzą one jednak wielowymiarowego rozkładu normalnego. Cała masa prawdopodobieństwa ich wspólnego rozkładu znajduje się na prostych y=x, y=-x, podczas gdy nośnikiem wielowymiarowego rozkładu normalnego jest całą płaszczyzna \mathbb{R}^2. W szczególności zmienna x+y ma rozkład mieszany (dyskretno-ciągły), i z prawdopodobieństwem 0.5 przyjmuje wartość 0, a więc nie jest spełniona definicja wielowymiarowego rozkładu normalnego: pewna kombinacja liniowa składowych wektora losowego nie ma rozkładu normalnego.

Estymacja parametrów[edytuj | edytuj kod]

Mając dane N wektorów pobranych z pewnego wielowymiarowego rozkładu normalnego o wektorze wartości oczekiwanych \boldsymbol{\mu} i macierzy kowariancji \Sigma możemy oszacować jego parametry w następujący sposób:

Estymator wartości oczekiwanej:

\hat{\boldsymbol{\mu}} = {1 \over N}\sum_{i=1}^n (X_i)

Estymator macierzy kowariancji o największej wiarygodności :

\hat\Sigma = {1 \over N}\sum_{i=1}^N (X_i-\hat{\boldsymbol{\mu}})(X_i-\hat{\boldsymbol{\mu}})^T

Estymator nieobciążony macierzy kowariancji:

\hat\Sigma = {1 \over N-1}\sum_{i=1}^N (X_i-\hat{\boldsymbol{\mu}})(X_i-\hat{\boldsymbol{\mu}})^T

Symulacja[edytuj | edytuj kod]

W celu uzyskania wektora losowego o rozkładzie danym przez wektor średni \boldsymbol{\mu} i macierz kowariancji \Sigma\,, postępujemy według następującego algorytmu:

  1. Stosujemy rozkład Choleskiego względem macierzy \Sigma\,, tak by otrzymać macierz A\,, dla której zachodzi: AA^T = \Sigma
  2. Tworzymy wektor Z\, n niezależnych zmiennych losowych o standardowym rozkładzie normalnym, stosując np. metodę Boxa-Mullera.
  3. Szukany wektor to X = \boldsymbol{\mu} + AZ

Zobacz też[edytuj | edytuj kod]