Odchylenie standardowe

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Odchylenie standardoweklasyczna miara zmienności, obok średniej arytmetycznej najczęściej stosowane pojęcie statystyczne.

Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (takiej jak np. wiek, inflacja, kurs akcji itp.) są rozrzucone wokół jej średniej[1]. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej.

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji. Pojęcie odchylenia zostało wprowadzone przez pioniera statystyki, Karla Pearsona w 1894 roku[2]. Wyróżnia się:

  • odchylenie standardowe zmiennej losowej, będące właściwością badanego zjawiska. Daje się ono obliczyć na podstawie ścisłych informacji o rozkładzie zmiennej losowej[3]. Rozkład ten w praktycznych badaniach nie jest zwykle znany.
  • odchylenie standardowe w populacji, które jest liczbą dającą się obliczyć dokładnie, jeśli znane byłyby wartości zmiennej dla wszystkich obiektów populacji; odpowiada odchyleniu zmiennej losowej, której rozkład jest identyczny z rozkładem w populacji.
  • odchylenie standardowe z próby, które jest oszacowaniem odchylenia standardowego w populacji na podstawie znajomości wyłącznie części jej obiektów, czyli właśnie tzw. próby losowej. Stosowane do tego celu wzory nazywane są estymatorami odchylenia standardowego.

Odchylenie standardowe zmiennej losowej[edytuj | edytuj kod]

Odchylenie standardowe zmiennej losowej oznacza się tradycyjnie przez σ (małe greckie sigma) i definiuje jako pierwiastek kwadratowy wariancji.

Jest ono dane wzorem:

\sigma = \sqrt{\operatorname{E}((X-\operatorname{E}(X))^2)}= \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}
(1)

gdzie E(X) jest wartością oczekiwaną X (dowód w przypisie[4]).

Zmienna losowa dyskretna[edytuj | edytuj kod]

Dla dyskretnej zmiennej losowej, przyjmującej n różnych wartości x_1,x_2,\dots,x_n z prawdopodobieństwami odpowiednio p_1,p_2,\dots,p_n odchylenie standardowe można obliczyć ze wzoru:

\sigma=\sqrt{\sum\limits_{i=1}^n{(x_i-\mu)^2 p_i}} =\sqrt{\left(\sum\limits_{i=1}^n{x_i^2 p_i}\right)-\mu^2}

gdzie:

\mu=\sum\limits_{i=1}^n x_i p_i

Zmienna losowa ciągła[edytuj | edytuj kod]

Dla zmiennych ciągłych:

\sigma = \sqrt{\int_{-\infty}^\infty (x-\mu)^2 \, f(x) \, dx}\,

gdzie

\mu = \int_{-\infty}^\infty x f(x) dx

a f(x)\ jest funkcją gęstości prawdopodobieństwa.

Odchylenie standardowe można zdefiniować dla niemal każdego rozkładu prawdopodobieństwa. Istnieją jednak rozkłady (np. rozkład Cauchy'ego), dla których jest ono nieskończone lub nie istnieje. W przypadku rozkładu normalnego, odchylenie posiada oczywistą interpretację, gdyż jest jednym z parametrów rozkładu, występuje jako \sigma we wzorze na gęstość prawdopodobieństwa w tym rozkładzie:

f(x) = {1 \over \sigma\sqrt{2\pi} } e^{ \frac {-(x-\mu )^2} {2\sigma^2} }

W przypadku innych rozkładów, choć zwykle można podać ścisły wzór wiążący parametry rozkładu z odchyleniem, interpretacja jego wartości jest już znacznie mniej naturalna, o ile w ogóle możliwa.

Dla zmiennych o rozkładach mieszanych dyskretno-ciągłych można zastosować wzór (1).

Odchylenie standardowe w populacji[edytuj | edytuj kod]

Dla skończonych populacji odchylenie jest średnią kwadratową z różnic między wartościami zmiennej a ich średnią arytmetyczną. Odchylenie standardowe można obliczyć ze wzoru:

\sigma=\sqrt{\frac{\sum\limits_{i=1}^N{(x_i-\mu)^2}}{N}}=\sqrt{\frac{\sum\limits_{i=1}^N{x_i^2}}{N}-\mu^2}
(2)

gdzie x_i to kolejne wartości cechy w populacji, \mu to wartość oczekiwana, N to liczba obserwacji w populacji (dowód drugiej równości w przypisie[5]).
Uwaga: druga równość zachodzi tylko dla skończonej populacji, nie jest prawdziwa w przypadku odchylenia standardowego z próby, gdzie zamiast \mu\; trzeba wziąć \overline{x}.
Dla populacji z N=1 mamy x_1=\mu, więc \sigma=0.

Odchylenie standardowe z próby[edytuj | edytuj kod]

Odchylenie standardowe w populacji można estymować (przybliżać) odchyleniem standardowym z próby, oznaczanym przez s. Ponieważ próba niesie informację tylko o części obserwacji z populacji, wynik ten nigdy nie jest dokładny. Wszystkie podane niżej wzory są przybliżeniami, pozwalającymi oszacować odchylenie standardowe zmiennej losowej w populacji (w przypadku rozkładu normalnego jest to również parametr rozkładu σ) na podstawie wartości z próby. Różnice we wzorach biorą się z innych założeń co do pożądanych ich właściwości.

Pierwiastek estymatora nieobciążonego wariancji[edytuj | edytuj kod]

Najczęściej używany estymator odchylenia standardowego (błędnie nazywany estymatorem nieobciążonym[6], o czym mowa dalej) ma postać[7]


s=\sqrt{\frac{\sum\limits_{i=1}^n{(x_i-\overline{x})^2}}{n-1}}=\sqrt{\frac{n}{n-1}(\overline{x^2}-(\overline{x})^2)}
(3)

gdzie:

  • x_i to kolejne wartości danej zmiennej losowej w próbie,
  • \overline{x} to średnia arytmetyczna z próby,
  • \overline{\,x^2} to średnia arytmetyczna kwadratów wartości z próby
  • n to liczba elementów w próbie.

Zaletą tego estymatora jest prostota wzoru, bezpośredni związek z estymatorem nieobciążonym wariancji i relatywnie niewielkie błędy estymacji. Dokładniejszy jest estymator nieobciążony odchylenia (podany dalej), jest jednak trudniejszy w obliczaniu i w związku z tym bardzo rzadko stosowany.

W mianowniku wzoru (3) występuje n-1. Wydaje się zupełnie nieintuicyjne, że w przypadku populacji powinno się używać wzoru (2) z n w mianowniku, a dla próby wzoru z n-1.

Te dwa przypadki różnią się jednak bardzo istotną rzeczą: w przypadku całej populacji znamy dokładną wartość średniej \mu, używanej we wzorze (2). W przypadku próby trzeba ją dodatkowo przybliżać średnią z próby \overline{x}. Załóżmy, że próba wylosowała się akurat w ten sposób, że w którymś miejscu byłoby drobne zagęszczenie obserwacji w próbce w stosunku do gęstości w całej populacji. Spowoduje to przesunięcie średniej z próby \overline{x} w stronę tego zagęszczenia. Można udowodnić, że suma postaci \sum\limits_{i=1}^n \, (x_i-a)^2 (czyli taka jak licznik wzorów na odchylenie standardowe) jest najmniejsza gdy a=\overline{x}, więc na skutek tego przesunięcia się średniej w próbce od \mu do \overline{x} odchylenie zmniejsza się. To zmniejszenie licznika jest kompensowane przez mniejszą wartość mianownika (n-1 zamiast n). Szczegółowe wyprowadzenie znajduje się w przypisie[8].

Estymator nieobciążony[edytuj | edytuj kod]

Estymator nieobciążony odchylenia standardowego ma tę własność, że gdyby wielokrotnie losować próbę z tej samej populacji i za każdym razem wyliczać odchylenie w próbie i uśredniać otrzymane wartości odchyleń, to wynik dążyłby do prawdziwej wartości odchylenia w populacji.

Statystyka (3) jest często nazywana estymatorem nieobciążonym odchylenia standardowego, jednak nie jest to prawda. To s^2 jest estymatorem nieobciążonym wariancji, przy założeniu niezależnego losowania ze zwracaniem elementów próby oraz istnienia skończonej wariancji \sigma^2.

Estymator (3) daje w większości przypadków zaniżone wyniki w porównaniu z estymowaną wielkością, różnica ta jednak dąży do zera wraz ze wzrostem liczebności próby, można więc powiedzieć, że jest asymptotycznie nieobciążony.

Estymator nieobciążony odchylenia standardowego, przy założeniu rozkładu normalnego populacji, dostanie się dzieląc wartość s obliczoną według wzoru (3) przez wielkość[9]:

c_4=\sqrt{\frac{2}{n-1}}\frac{\Gamma(\frac{n}{2})} {\Gamma(\frac{n-1}{2})}\approx 1-\frac{1}{4n}-\frac{7}{32n^2}
(4)

gdzie Γ to funkcja gamma[10]. Wartości c_4 szybko zbiegają do 1 wraz ze wzrostem n (patrz tabela w Wikiźródłach), korekta jest więc konieczna tylko w przypadku niewielkich prób[11] i potrzeby bardzo dokładnych wyliczeń. Ze względu na trudności obliczeniowe rzadko dokonuje się tej korekty, stosowana jest niemalże jedynie w statystycznej kontroli jakości i w teorii statystyki. W przypadku gdy rozkład nie jest normalny, powyższy estymator może być (i zwykle jest) obciążony. Estymator nieobciążony w niektórych przypadkach nie istnieje.

Współczynnik c_4 występuje jeszcze w jednym wzorze — na odchylenie standardowe estymatora odchylenia standardowego s podanego powyżej, również przy założeniu rozkładu normalnego populacji:

\sigma_s=\sigma\,\sqrt{1-c_4^2}
(5)

Estymator największej wiarygodności[edytuj | edytuj kod]

Estymator największej wiarygodności jest oparty na innym rozumowaniu: Spośród wszystkich rozkładów normalnych postaci N(\overline{x}\,,\sigma), czyli posiadających tę samą średnią, co dana próba, ale różne odchylenia, estymator największej wiarygodności podaje taką wartość odchylenia \sigma=s, dla której najbardziej prawdopodobne byłoby wylosowanie właśnie takich wyników x_i do próby jakie faktycznie w niej wystąpiły. "Największa wiarygodność" dotyczy zatem nie tyle jego wyników, co raczej próby, która przy takim właśnie odchyleniu w populacji byłaby najbardziej prawdopodobna jako jej losowa reprezentacja. Estymator ten jest jednak obciążony.

s=\sqrt{\frac{\sum\limits_{i=1}^n (x_i-\overline x)^2}{n}}\,=\sqrt{\overline{x^2}-(\overline x)^2}
(6)

Estymator największej wiarygodności stosuje się w zasadzie z kilku powodów:

  • ze względu na łatwe przedstawienie w postaci średniej \overline{x} i średniej kwadratów \overline{\,x^2}.
  • wzór na estymator największej wiarygodności pokrywa się ze wzorem na odchylenie standardowe w populacji, co pozwala nie przejmować się rozróżnieniem między próbą a populacją
  • najczęstszy, choć niechlubny powód: estymator ten daje najmniejsze wartości odchylenia z wymienionych, przydaje się więc, gdy niewielkie wartości są wskazane dla udowodnienia tezy, którą dane obliczenia mają wspierać.

Istnieje jeszcze jedna popularna metoda wyprowadzania estymatorów – tzw. metoda momentów. Daje ona w przypadku odchylenia standardowego ten sam wzór (6). Estymator największej wiarygodności jest także asymptotycznie nieobciążony, podobnie jak pierwiastek estymatora nieobciążonego wariancji (wzór 3).

Przykład[edytuj | edytuj kod]

Przykład pokazuje oszacowanie odchylenia standardowego w populacji za pomocą nieobciążonego estymatora. Próbą będzie wiek czworga dzieci, wyrażony w latach: { 5, 6, 8, 9 }.

Krok 1. Obliczenie średniej arytmetycznej, \overline{x}:

\overline{x}=\frac{1}{n}\sum\limits_{i=1}^n x_i

n = 4\; ponieważ są cztery obserwacje:

x_1 = 5\;
x_2 = 6\;
x_3 = 8\;
x_4 = 9\;
\overline{x}=\frac{1}{4}\sum\limits_{i=1}^4 x_i       Podstawienie 4 zamiast n
\overline{x}=\frac{1}{4} \left ( x_1 + x_2 + x_3 +x_4 \right )
\overline{x}=\frac{1}{4} \left ( 5 + 6 + 8 + 9 \right )
\overline{x}\,=7

Krok 2. Obliczenie przybliżenia odchylenia standardowego według wzoru (3):

s = \sqrt{\frac{1}{n-1} \sum\limits_{i=1}^n (x_i - \overline{x})^2}
s = \sqrt{\frac{1}{4-1} \sum\limits_{i=1}^4 (x_i - \overline{x})^2}       Podstawienie 4 pod n.
s = \sqrt{\frac{1}{3} \sum\limits_{i=1}^4 (x_i - 7)^2}       Podstawienie 7 pod \overline{x}
s = \sqrt{\frac{1}{3} \left [(x_1 - 7)^2 + (x_2 - 7)^2 + (x_3 - 7)^2 + (x_4 - 7)^2 \right] }
s = \sqrt{\frac{1}{3} \left [(5 - 7)^2 + (6 - 7)^2 + (8 - 7)^2 + (9 - 7)^2 \right] }
s = \sqrt{\frac{1}{3} \left ( (-2)^2 + (-1)^2 + 1^2 + 2^2 \right ) }
s = \sqrt{\frac{1}{3} \, \left ( 4 + 1 + 1 + 4 \right ) }
s = \sqrt{\frac{10}{3}}=\sqrt{3,3333\dots} \approx 1{,}8257

Większość użytkowników odchylenia standardowego kończy w tym miejscu nie przejmując się obciążeniem estymatora.

Krok 3. Ponieważ próba jest bardzo mała, należy odczytać z tabeli w Wikiźródłach wartość współczynnika c_4 dla n=4. Wynosi ona 0,9213. Następnie można obliczyć estymator nieobciążony odchylenia standardowego w populacji:

\hat{\sigma}=\frac{s}{c_4}\approx\,\frac{1{,}8257}{0{,}9213}\approx 1{,}9817

Gdyby nie zastosować korekty w kroku trzecim, wynikiem byłoby 1,8257. Gdyby zastosować estymator największej wiarygodności (6), wynikiem byłoby 1,5811. Dla tak małej próby wskazany jest jednak estymator nieobciążony. Dla dużych prób[11] wszystkie podane estymatory dają wyniki zbliżone do odchylenia w populacji, można więc stosować dowolny z nich. Takie estymatory zwane są asymptotycznie nieobciążonymi.

Podane oszacowanie nie jest tym samym, co odchylenie standardowe w populacji złożonej z takich czterech obiektów. W tym przypadku ze wzoru (2):

\sigma = \sqrt{\frac{1}{n} \sum\limits_{i=1}^n (x_i - \overline{x})^2}=\sqrt{\frac{1}{4} \left ( 4 + 1 + 1 + 4 \right ) }\approx 1{,}5811

Odchylenie standardowe z próby podzielonej na grupy[edytuj | edytuj kod]

Wartość estymatora największej wiarygodności można wyliczyć także w przypadku, gdy próba została podzielona na k\; grup i znamy tylko liczności n_i\;, średnie \mu_i\; oraz odchylenia standardowe s_i\; dla wszystkich grup:

s=\sqrt{\frac{\sum\limits_{i=1}^k \left( (s_i^2+(m_i-m)^2)n_i\right) }{\sum\limits_{i=1}^k n_i}}

gdzie:

  • k\; to liczba grup
  • n_i\; to liczebność i-tej grupy
  • m_i\; to średnia i-tej grupy
  • s_i\; to odchylenie standardowe i-tej grupy ze wzoru (6)
  • m\; to średnia obserwacji w całej próbie, można ją wyliczyć za pomocą wzoru na średnią ważoną:
m=\frac{\sum\limits_{i=1}^k m_i n_i}{\sum\limits_{i=1}^k n_i}

Dla równych liczności grup (n_1=n_2=\dots=n_k) wzór ten sprowadza się do:

s=\sqrt{\overline{s_i^2}+\operatorname{Var}(m_i)}\;

gdzie:

\overline{s_i^2}=\frac{\sum\limits_{i=1}^k s_i^2}{k} to średnia z wariancji w poszczególnych grupach
\operatorname{Var}(m_i)=\frac{\sum\limits_{i=1}^k m_i^2}{k}-\left( \frac{\sum\limits_{i=1}^k m_i}{k}\right) ^2 to wariancja ze średnich w poszczególnych grupach

Podobne wzory (nieco bardziej skomplikowane) istnieją także dla estymatora (3).

Szeregi czasowe[edytuj | edytuj kod]

Wszystkie powyższe estymatory były wyprowadzane przy założeniu niezależnego losowania ze zwracaniem elementów próby z populacji statystycznej. Warunek ten nie jest spełniony w przypadku, gdy próbą są kolejne wartości jakiegoś czynnika w różnych chwilach czasowych (tzw. szeregi czasowe), np. kursy walut czy akcji. Wówczas bowiem wartości dla zbliżonych chwil czasowych są zwykle skorelowane ze sobą. W takim przypadku wszystkie powyższe wzory są obciążone i nie podają prawdziwej wartości odchylenia w populacji. Nie przeszkadza to graczom giełdowym stosować odchylenia standardowego dla kursów cen akcji w kolejnych dniach (ang. volatility) i opierać na tym wielu metod analizy technicznej, takich jak wstęga Bollingera.

Porównanie gęstości rozkładu normalnego dla różnych wartości parametrów. Większe wartości na wykresie odpowiadają większemu prawdopodobieństwu znalezienia w tym miejscu obserwacji. Czerwona, zielona i niebieska krzywa odpowiadają tej samej wartości oczekiwanej (średniej), lecz różnym odchyleniom standardowym w populacji. Czerwona odpowiada najmniejszemu, a niebieska największemu odchyleniu standardowemu. Im wyższe odchylenie standardowe, tym mniej obserwacji skupia się wokół średniej a tym więcej jest ich daleko od niej.

Interpretacja[edytuj | edytuj kod]

Im większa wartość odchylenia standardowego tym bardziej obserwowane wielkości oddalone są od średniej. Im mniejsza wartość, tym bardziej są skupione wokół średniej.

Na przykład każda z trzech populacji: \{0, 0, 14, 14\}, \{0, 6, 8, 14\}, \{6, 6, 8, 8\} ma średnią 7. Ich odchylenia standardowe to odpowiednio 7, 5 i 1. Trzecia populacja ma znacznie mniejsze odchylenie standardowe od pozostałych, gdyż wartości jej elementów są zbliżone do 7.

Odchylenie standardowe może służyć jako miara niepewności. W fizycznym sensie odchylenie standardowe dla grupy powtarzanych pomiarów daje obraz precyzji pomiaru. Kiedy trzeba zdecydować, czy pomiary zgadzają się z teoretycznymi przewidywaniami, ich odchylenie standardowe nabiera kluczowej roli: Jeśli średnia z pomiarów jest zbyt daleko od wartości przewidywanej (przy czym odchylenie standardowe służy tu za jednostkę pomiaru tej odległości), uważa się, że pomiary zaprzeczają przewidywaniom. Oznacza to bowiem, że wypadają one poza zakres wartości, który można by zdroworozsądkowo uznać za prawdopodobny, jeśli przewidywania były słuszne.

Odchylenie a obserwacje dalekie od średniej[edytuj | edytuj kod]

Dla rozkładu normalnego[edytuj | edytuj kod]

Procent populacji wpadający do poszczególnych przedziałów o szerokości jednego odchylenia standardowego, przy założeniu rozkładu normalnego zmiennej. Krzywa przedstawia gęstość prawdopodobieństwa rozkładu normalnego.

W praktyce często zakłada się, że dane mają rozkład normalny. Założenie to nigdy nie jest całkowicie spełnione. Rozkład normalny ma bowiem niezerową gęstość prawdopodobieństwa dla każdej wartości ze zbioru liczb rzeczywistych, a w realnym świecie wartości zmiennych losowych są zawsze ograniczone, na przykład nie istnieją ludzie o ujemnym wzroście. Bardzo często jednak założenie to jest spełnione z wystarczająco dobrym przybliżeniem. Im lepiej jest ono uzasadnione, tym bliższe prawdy mogą być poniższe stwierdzenia:

  • 68% wartości cechy leży w odległości \le\sigma od wartości oczekiwanej;
  • 95,5% wartości cechy leży w odległości \le2\sigma od wartości oczekiwanej;
  • 99,7% wartości cechy leży w odległości \le3\sigma od wartości oczekiwanej.

Ostatnie stwierdzenie jest również znane jako reguła trzech sigm.

Wartości dla kilku naturalnych wielokrotności odchylenia przedstawia tabela:

maksymalne oddalenie
od średniej
odsetek obserwacji
σ 0,68268948
0,95449989
0,99730028
0,99993663
0,99999942
0,999999998

Poniższa tabela jest często wykorzystywana do wyliczania tzw. przedziału ufności. Np. wiedząc, że zmienna ma rozkład normalny, średnia wynosi 5, a odchylenie 2, można z prawdopodobieństwem 95% przyjąć, że przedział ufności \langle5-1,95996\cdot 2;5+1,95996\cdot 2\rangle zawiera rzeczywistą wartość parametru (tu: wartości oczekiwanej).

odsetek obserwacji maksymalne oddalenie
od średniej
0,800 1,28155σ
0,900 1,64485σ
0,950 1,95996σ
0,990 2,57583σ
0,995 2,80703σ
0,999 3,29053σ

Dla dowolnych rozkładów[edytuj | edytuj kod]

W ogólnym przypadku, gdy rozkład cech nie jest znany, prawdziwa jest nierówność Czebyszewa: dla danego k>1 prawdopodobieństwo, że wartość losowo wybranej cechy różni się od wartości oczekiwanej o więcej niż \pm k\sigma wynosi co najwyżej 1/k^2. Na przykład poza przedziałem \langle\mu-2\sigma,\mu+2\sigma\rangle leży co najwyżej 25% wartości cechy. Wartości dla kilku naturalnych wielokrotności odchylenia przedstawia tabela:

maksymalne oddalenie
od średniej
odsetek obserwacji
0,75
0,8888889
0,9375
0,96

Przedziały zawierają mniejszy odsetek obserwacji niż identyczne przedziały dla rozkładu normalnego, ponieważ nierówność Czebyszewa stosuje się dla dowolnego rozkładu, dla którego istnieje odchylenie standardowe.

Jeśli \mu to średnia w populacji, m to mediana w populacji, a \sigma to odchylenie standardowe w populacji, to spełniona jest też nierówność:

|\mu-m|\leqslant \sigma

Nie ma przy tym potrzeby dokonywania jakichkolwiek założeń odnośnie rozkładu, włącznie z założeniem o skończoności wariancji[12].

Interpretacja geometryczna[edytuj | edytuj kod]

Odchylenie standardowe ma ciekawą interpretację geometryczną. Niech populacja składa się z trzech obserwacji: x_1,\ x_2,\ x_3. Niech punkt P w przestrzeni trójwymiarowej ma współrzędne (x_1,\ x_2,\ x_3). Jeśli x_1=x_2=x_3\ wówczas odchylenie standardowe w populacji wynosi zero, a punkt P\ znajduje się na osi symetrii układu współrzędnych – prostej x=y=z\ . Okazuje się że rzut punktu P\ na prostą x=y=z\ odpowiada średniej w populacji – ma współrzędne (\mu,\mu,\mu)\ , gdzie \mu=\frac{x_1+x_2+x_3}{3}, a odległość l\ punktu P\ od prostej x=y=z\ jest wprost proporcjonalna do odchylenia standardowego:

l=\sigma \sqrt{3}

Ogólnie dla populacji z N elementów zachodzi:

l=\sigma \sqrt{N}

jednak całe rozumowanie trzeba przeprowadzać w przestrzeni N-wymiarowej.

Właściwości[edytuj | edytuj kod]

Odchylenie standardowe ma szereg własności, które powodują, że jest to miara przydatna w statystyce opisowej.

Skala pomiarowa[edytuj | edytuj kod]

Information icon.svg Osobny artykuł: Skala pomiarowa.

Wzory na odchylenie standardowe zawierają różnice wartości obserwowanej i średniej lub wartości oczekiwanej, a więc takie różnice powinny mieć sens dla danej zmiennej. Powinna ona zatem znajdować się na skali interwałowej (przedziałowej) lub absolutnej. W teorii nie powinno się więc stosować odchylenia standardowego do zmiennych ilorazowych (jak np. ceny czy bezrobocie), choć jest to częsta praktyka. Niedopuszczalne jest stosowanie odchylenia do zakodowanych liczbowo zmiennych na skali porządkowej i nominalnej.

Jednostka miary[edytuj | edytuj kod]

Odchylenie jest wyrażone w tych samych jednostkach co wartości badanej cechy, np. jeśli mierzony jest wzrost ludzi w cm, to odchylenie standardowe również wyraża się w cm. Jest to niezależne od rozkładu zmiennej.

Zakres[edytuj | edytuj kod]

Odchylenie standardowe jest zawsze liczbą nieujemną. Wartość zero ma wtedy i tylko wtedy, gdy wszystkie obserwacje mają tę samą wartość. Odchylenie standardowe w skończonej populacji lub próbce jest zawsze skończone.

Odchylenie sumy i różnicy[edytuj | edytuj kod]

Również dla każdego rozkładu odchylenie standardowe sumy lub różnicy dwóch zmiennych losowych jest równe:

\sigma_{X\pm Y}=\sqrt{\sigma_X^2+\sigma_Y^2\pm 2\sigma_X \sigma_Y \operatorname{corr}(X,Y)}
gdzie \operatorname{corr}(X,Y) to współczynnik korelacji Pearsona między zmiennymi X i Y.

Ogólnie dla k zmiennych losowych:

\sigma_{X_1+X_2+\dots+X_k}=\sqrt{\sum\limits_{i=1}^k\sum\limits_{j=1}^k \sigma_{X_i}\sigma_{X_j}\operatorname{corr}(X_i,X_j)}=\sqrt{\sum\limits_{i=1}^k\sum\limits_{j=1}^k \operatorname{cov}(X_i,X_j)}
gdzie \operatorname{cov}(X_i,X_j) to kowariancja między zmiennymi X_i i X_j.

W szczególności dla dwóch niezależnych zmiennych losowych:

\sigma_{X+Y}=\sigma_{X-Y}=\sqrt{\sigma_X^2+\sigma_Y^2}

A dla k niezależnych zmiennych losowych o tym samym odchyleniu \sigma_X:

\sigma_{\pm X_1\pm \dots\pm X_k}=\sqrt{k}\cdot\sigma_X

Działania arytmetyczne zmiennej losowej ze stałą[edytuj | edytuj kod]

Jeśli wartości zmiennej losowej o dowolnym rozkładzie zostaną pomnożone lub podzielone przez rzeczywistą stałą c, odchylenie standardowe odpowiednio pomnoży lub podzieli się przez wartość bezwzględną tej stałej:

\sigma_{cX}=|c|\sigma_X\
\sigma_{\frac{X}{c}}=\frac{\sigma_X}{|c|}

Różnica względem wzoru z poprzedniej sekcji wynika stąd, że teraz (dla naturalnego c) zmienna X jest dodawana wielokrotnie do niej samej, co odpowiada dodawaniu zmiennych zależnych i skorelowanych na poziomie +1, a poprzednio było dodawane k zmiennych niezależnych.

Dodawanie i odejmowanie stałej nie zmienia wartości odchylenia standardowego:

\sigma_{X+c}=\sigma_{X-c}=\sigma_X\

Odchylenie średniej[edytuj | edytuj kod]

Z powyższych wzorów na odchylenie sumy k niezależnych zmiennych losowych i iloczynu przez stałą wynika praktyczny estymator błędu oszacowania średniej na podstawie próby. Estymator ten zakłada rozkład normalny średniej, jednak przy uśrednianiu dużej[11] liczby obserwacji rozkład średniej zawsze dąży do normalnego (tzw. centralne twierdzenie graniczne), przy dużej[11] liczbie obserwacji można więc stosować ten wzór dla dowolnych rozkładów.

Wzór na średnią w populacji:

\overline{x}=\frac{\sum\limits_{i=1}^n x_i}{n}

Można potraktować realizacje x_i jako zmienne losowe o identycznym rozkładzie N(m_X,\sigma_X). Jeśli dodatkowo zmienne te są niezależne (co nie zawsze musi być prawdą, jeśli na przykład jeden pomiar wpływa na następny), wówczas odchylenie średniej:

\sigma_{\overline{x}}=\frac{\sqrt{\sum\limits_{i=1}^n \sigma_{x_i}^2}}{n}

Ponieważ dla każdego i \sigma_{x_i}=\sigma_X, więc:

\sigma_{\overline{x}}=\frac{\sqrt{n\sigma_X^2}}{n}=\frac{\sigma_X}{\sqrt{n}}

Szacując \sigma_X za pomocą przybliżenia estymatora nieobciążonego (3), dostaje się przybliżenie nieobciążonego estymatora odchylenia standardowego średniej:

s_{\overline{X}} = \sqrt{\frac{\sum\limits_{i=1}^n{(x_i-\overline{x})^2}}{n(n-1)}}= \sqrt{\frac{\overline{x^2}-(\overline{x})^2}{n-1}}

Wrażliwość na błędy obserwacji[edytuj | edytuj kod]

Estymatory odchylenia standardowego nie zakładają rozkładu normalnego w populacji. Co prawda "estymator nieobciążony" przy innych rozkładach może posiadać obciążenie, ale nadal można go stosować. W przypadku rozkładu normalnego wyniki mają jednak jasną interpretację, gdyż przekładają się bezpośrednio na prawdopodobieństwo znalezienia obserwacji w określonym oddaleniu od średniej. Dla rozkładów różnych od normalnego prawdopodobieństwo to jest inne, dla bardzo[11] zaburzonych rozkładów z próby odchylenie nic nam o tym prawdpodobieństwie nie powie. W szczególności obecność obserwacji odstających, czyli wartości w próbce bardzo[11] oddalonych od średniej może spowodować powstanie dużych błędów.

Dla najpopularniejszego estymatora (3):

s=\sqrt{\frac{n}{n-1}\left( \overline{x^2}-(\overline{x})^2\right) }

Obliczmy jaki wpływ na błąd końcowego wyniku ma błąd pojedynczej obserwacji x_i. W tym celu sprawdzimy, jak zmieni się wartość estymacji kiedy do jednej obserwacji dodamy bardzo małą liczbę \partial x_i. Odpowiada to obliczeniu pochodnej cząstkowej po \partial x_i:

\frac{\partial s}{\partial x_i}=\frac{1}{2s}\cdot\frac{n}{n-1}\left( \frac{2x_i}{n}-\frac{2\overline{x}}{n}\right)

czyli po skróceniu wpływ błędu pojedynczej obserwacji na błąd estymacji wynosi:

\left| \frac{\partial s}{\partial x_i}\right| =\frac{|x_i-\overline{x}|}{s(n-1)}

Ze wzoru tego wypływa kilka wniosków:

  • Wpływ błędów wprowadzanych przez pojedynczą obserwację na błąd estymacji jest tym większy, im bardziej dana obserwacja jest oddalona od średniej.
  • Wpływ błędów pojedynczej obserwacji zmniejsza się, gdy rośnie liczba elementów próby
  • W skrajnych sytuacjach jedna obserwacja odstająca ekstremalnie od średniej może zdominować cały wynik. Przykładowo, gdy x_i=\overline{x}\pm s(n-1), wówczas
\left| \frac{\partial s}{\partial x_i}\right| =1
i dowolny błąd w obserwacji x_i propaguje się na identyczny błąd w wyniku estymacji.
  • Nie należy zatem bezkrytycznie stosować odchylenia standardowego jako miary zmienności dla rozkładów z obserwacjami odstającymi lub bardzo[11] odbiegających od rozkładu normalnego. Wyniki mogą nie mieć wtedy żadnej sensownej interpretacji w praktyce.

Alternatywy dla odchylenia standardowego[edytuj | edytuj kod]

Metody rangowe[edytuj | edytuj kod]

W przypadku bardzo[11] zaburzonych rozkładów z obserwacjami odstającymi lepiej zastosować metody nieparametryczne. Miary nieparametryczne dają mniej dokładne wyniki w przypadku niezaburzonego rozkładu normalnego, jednak lepsze w przypadku bardzo zaburzonych danych.

Najczęściej jest tutaj stosowany rozstęp ćwiartkowy (rozstęp kwartylny), czyli różnica pomiędzy trzecim i pierwszym kwartylem z próby. Pierwszy kwartyl to liczba, poniżej której znajduje się 25% obserwacji[13]. Trzeci kwartyl to liczba powyżej której jest 25% obserwacji[13]. Pomiędzy nimi znajduje się 50% obserwacji. Połowa rozstępu ćwiartkowego to tzw. odchylenie ćwiartkowe. Miary te są niezależne od rozkładu, dzięki czemu zachowują swoją interpretację w sytuacjach, gdy odchylenie standardowe staje się nieprzydatne.

Ważone odchylenie standardowe[edytuj | edytuj kod]

Istnieje też wersja odchylenia standardowego, w której poszczególne obserwacje brane są z różnymi wagami. Odpowiednikiem wzoru (3) jest wówczas:

s = \sqrt{\frac{\sum\limits_{i=1}^n\left( w_i\left(x_i -\frac{\sum\limits_{i=1}^n x_i w_i}{n}\right) ^2\right) }{n-1}}

przy czym wagi muszą być znormalizowane do 1:

\sum\limits_{i=1}^n w_i=1

Ważone odchylenie standardowe jest najczęściej wykorzystywane do zmniejszenia wrażliwości odchylenia standardowego na obserwacje odstające, co jest osiągane przez nadanie mniejszych wag obserwacjom dalekim od średniej.

Średnie odchylenie bezwzględne[edytuj | edytuj kod]

Jeszcze innym podejściem jest obliczanie średniego odchylenia bezwzględnego, czyli wartości:

D = \frac{\sum\limits_{i=1}^{n}|x_i - \overline{x}|}{n}

Miara ta ma tę zaletę, iż błąd każdej obserwacji wchodzi do wyniku z tą samą wagą, jest zatem bardziej odporna na obserwacje odstające.

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. Ściślej: wokół wartości oczekiwanej.
  2. Pierwszy raz użyto w: Karl Pearson: Contributions to the Mathematical Theory of Evolution. Philosophical Transactions of the Royal Society of London, 1894. Ser. A, 185, 71-110.. (praca dostępna tutaj) Na stronie 80 Pearson napisał "Then σ will be termed its standard-deviation (error of mean square)". Kiedy Ronald Fisher wprowadzał wariancję w 1918, nie wymyślał już nowego symbolu, lecz użył \sigma^2.
  3. przy założeniu, że w ogóle odchylenie standardowe dla danego rozkładu istnieje, gdyż zdarzają się (w teorii statystyki) rozkłady, dla których odpowiedni wzór nie jest całkowalny, oraz takie, dla których odchylenie jest nieskończone.
  4. Dowód drugiej równości
    \sqrt{\operatorname{E}((X-\operatorname{E}(X))^2)}= \sqrt{\operatorname{E}(X^2) -2 \operatorname{E}(X)\operatorname{E}(X)+ (\operatorname{E}(X))^2}=\sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}
  5. Dowód:
    \sigma=\sqrt{\frac{\sum\limits_{i=1}^N{(x_i-\mu)^2}}{N}}=\sqrt{\frac{\sum\limits_{i=1}^N{(x_i^2-2x_i\mu+\mu^2)}}{N}}= \sqrt{\sum\limits_{i=1}^N \frac{x_i^2}{N}-2\mu\sum\limits_{i=1}^N \frac{x_i}{N}+\sum\limits_{i=1}^N\frac{\mu^2}{N}}
    ale dla populacji
    \sum\limits_{i=1}^N\frac{x_i}{N}=\mu
    (nie jest to już prawda dla próby) więc:
    \sigma=\sqrt{\frac{\sum\limits_{i=1}^N{x_i^2}}{N}-\mu^2}
  6. jest nieobciążony asymptotycznie, o czym mowa dalej, jednak "estymator nieobciążony asymptotycznie" i "estymator nieobciążony" to dwa różne pojęcia. Nie każdy estymator nieobciążony asymptotycznie jest estymatorem nieobciążonym i ten akurat nie jest. Istnieją też inne estymatory nieobciążone asymptotycznie odchylenia standardowego.
  7. Wyprowadzenie drugiej części wzoru (3):
    s=\sqrt{\frac{\sum\limits_{i=1}^n{(x_i-\overline{x})^2}}{n-1}}
    s=\sqrt{\frac{\sum\limits_{i=1}^n x_i^2-2 \sum\limits_{i=1}^n x_i\overline{x}+\sum\limits_{i=1}^n \overline{x}^2}{n-1}}
    s=\sqrt{\frac{n\overline{x^2}-2 n\overline{x}^2+n\overline{x}^2}{n-1}}
    s=\sqrt{\frac{n\overline{x^2}- n\overline{x}^2}{n-1}}
    s=\sqrt{\frac{n}{n-1}\left( \overline{x^2}-(\overline{x})^2\right) }
  8. Estymator wariancji z n w mianowniku:
    s_n^2=\frac{\sum\limits_{i=1}^{n}(x_i-\overline{x})^2}{n}
    Wartość oczekiwana tego estymatora:
    E(s_n^2)=\frac{1}{n}E\left[\sum\limits_{i=1}^{n}(x_i-\overline{x})^2\right]
    Po odjęciu i dodaniu \mu:
    E(s_n^2)=\frac{1}{n}E\left[\sum\limits_{i=1}^{n}\left( (x_i-\mu)+(\mu-\overline{x})\right)^2\right]
    Ze wzoru na kwadrat sumy:
    E(s_n^2)=\frac{1}{n}\sum\limits_{i=1}^{n}\left[E\left( (x_i-\mu)^2\right) +2E\left( (x_i-\mu)(\mu-\overline{x})\right) +E\left( (\mu-\overline{x})^2\right) \right]
    Drugi składnik:
    E\left( (x_i-\mu)(\mu-\overline{x})\right) =
    -E\left( (\mu-x_i)(\mu-\overline{x})\right) =
    -E\left( (\mu-\overline{x})^2\right)
    Stąd:
    E(s_n^2)=\frac{1}{n}\sum\limits_{i=1}^{n}\left[E\left( (x_i-\mu)^2\right) -E\left( (\mu-\overline{x})^2\right) \right]
    Jednak:
    E\left( (x_i-\mu)^2\right)=\sigma^2 (z definicji)
    E\left( (\mu-\overline{x})^2\right)=\operatorname{var}(\overline{x})= \operatorname{var}\left( \frac{1}{n}\sum\limits_{i=1}^{n}x_i\right) =
    =\frac{\operatorname{var}(x_1)+\operatorname{var}(x_2)+\dots +\operatorname{var}(x_n)}{n^2}
    =\frac{1}{n}\sigma^2
    (gdyż \operatorname{var}(x_i)=\sigma^2)
    Stąd:
    E(s_n^2)=\frac{1}{n}n\left( \sigma^2-\frac{1}{n}\sigma^2\right) =\frac{n-1}{n}\sigma^2
    A więc:
    \sigma^2=\frac{n}{n-1}E(s_n^2)=E\left[\frac{n}{n-1}\frac{1}{n} \sum\limits_{i=1}^{n}(x_i-\overline{x})^2\right]=
    i:
    \sigma^2=E\left[\frac{\sum\limits_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\right]
    A więc wzór z n-1 w mianowniku jest nieobciążonym estymatorem wariancji.
  9. en:Unbiased estimation of standard deviation.
  10. Wzór na c_4 wynika z twierdzenia Cochrana. Zgodnie z nim \sqrt{n-1}s/\sigma ma rozkład chi z n-1 stopniami swobody.
  11. 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 W tym artykule, jak w wielu miejscach w statystyce pojawiają się określenia "duża próba", "rozkład zbliżony do normalnego" itp. Nie są to określenie ścisłe i być nie mogą. Zwykle mówi się w ten sposób, że pewna własność jest spełniona z tym mniejszym błędem im próba jest większa lub rozkład bardziej zbliżony do normalnego. Statystyka jest nauką ścisłą w tym sensie, że przy spełnionych ściśle założeniach istnieje gwarancja używania najdokładniejszych wzorów. Ponieważ jednak założenia nigdy ściśle spełnione nie są, więc właściwy dobór metod jest swego rodzaju sztuką, nie dającą się ściśle sformalizować. Niektórzy ze względów praktycznych zakładają, że "duża próba" ma np. co najmniej 50 obserwacji. Nie ma to jednak żadnych podstaw merytorycznych – ten próg zależy zwykle nie tylko od wielkości próby, ale i od dopuszczalnego błędu i od kształtu rozkładu. Dla jednych prób wystarczy 20 obserwacji, żeby dany wzór można było z sensem stosować, dla innych trzeba 2000.
  12. Dowód dwukrotnie wykorzystuje nierówność Jensena:
    
\begin{align}
\left|\mu-m\right|
 &= \left|\mathrm{E}(X-m)\right|\leqslant\\
 &\leqslant \mathrm{E}\left(\left|X-m\right|\right)\leqslant\\
 &\leqslant \mathrm{E}\left(\left|X-\mu\right|\right)=\\
 &= \mathrm{E}\left(\sqrt{(X-\mu)^2}\right)\leqslant\\
 &\leqslant \sqrt{\mathrm{E}((X-\mu)^2)} = \sigma.
\end{align}
  13. 13,0 13,1 W praktyce ta definicja wymaga pewnego uściślenia, zobacz kwantyl.

Bibliografia[edytuj | edytuj kod]