Błąd średniokwadratowy

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

W statystyce błąd średniokwadratowy (ang. Mean Squared Error, MSE) estymatora \hat{\theta} nieobserwowanego parametru \theta\; definiowany jest jako:

\operatorname{MSE}(\hat{\theta})=\operatorname{E}((\hat{\theta}-\theta)^2).

MSE jest wartością oczekiwaną kwadratu "błędu", czyli różnicy pomiędzy estymatorem i wartością estymowaną. Błąd średniokwadratowy spełnia tożsamość:

\operatorname{MSE}(\hat{\theta})=\operatorname{D^2}(\hat{\theta})+(\operatorname{b}(\hat{\theta}))^2

gdzie:

D^2\; - oznacza wariancję estymatora \hat{\theta},
b(\hat{\theta})=E[(\hat{\theta})]-\theta, - to obciążenie estymatora.

Obciążenie estymatora jest różnicą między wartością oczekiwaną estymatora, a wartością szacowanego parametru.

Przykładowo: załóżmy, że

X_1,\dots,X_n\sim\operatorname{N}(\mu,\sigma^2),

czyli jest to próba losowa o liczności n z populacji o rozkładzie normalnym. Najczęściej używane estymatory \sigma^2 to:

\frac{1}{n}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\ {\rm oraz}\ \frac{1}
{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2

gdzie

\overline{X}=(X_1+\cdots+X_n)/n

jest średnią z próby. Pierwszy z tych estymatorów to estymator największej wiarygodności, który jest obciążony, tj. jego obciążenie jest niezerowe, ma jednak mniejszą wariancję od drugiego, który jest nieobciążony. Mniejsza wariancja w pewien sposób kompensuje obciążenie, tak że średni błąd kwadratowy obciążonego estymatora jest nieco mniejszy niż nieobciążony.

Niekiedy, zamiast błędem średniokwadratowym, posługujemy się RMSE (ang. root mean squared error), który jest po prostu pierwiastkiem kwadratowym z MSE.

Bibliografia[edytuj | edytuj kod]

  • Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006, s. 155-156. ISBN 83-204-3242-1.