Średnia winsorowska

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Średnia winsorowska, często błędnie nazywana średnią windsorską, jest jedną ze średnich, statystyczną miarą tendencji centralnej zbliżoną do zwykłej średniej arytmetycznej lub mediany, a najbardziej podobną do średniej ucinanej. Oblicza się ją tak samo jak średnią arytmetyczną, zastąpiwszy uprzednio odpowiednio wybrane skrajne obserwacje (z góry określoną liczbę najmniejszych i największych wartości w próbie) wartością maksymalną i minimalną z pozostałej części.

Procedura ta nazywana bywa winsoryzacją (ang. winsorizing). Nazwa ta (i nazwa średniej) pochodzą od nazwiska statystyka Charlesa Winsora (1895–1951).

Zazwyczaj zastępuje się w ten sposób 10 do 25 procent zakresu z obu końców rozkładu. W przypadku gdy współczynnik ten wynosi 0 procent, średnia winsorowska sprowadza się do średniej arytmetycznej, gdy zastępowane są wszystkie obserwacje z wyjątkiem jednej lub dwóch, sprowadza się do mediany.

Przykład[edytuj | edytuj kod]

Weźmy próbkę 10 liczb, uporządkowanych od najmniejszej do największej: x1, ..., x10. W celu obliczenia 10–procentowej średniej winsorowskiej zastępujemy 10% próbek z każdego końca (czyli po jednej) najbliższą wartością spośród pozostałych i obliczamy:

\frac{\overbrace{x_2 + x_2} + x_3 + x_4 + x_5 + x_6 + x_7 + x_8 + \overbrace{x_9 + x_9}}{10}.

Zalety[edytuj | edytuj kod]

Średnia winsorowska jest bardziej od zwykłej średniej arytmetycznej odporna na elementy odstające i bardziej odporna od mediany na asymetryczny rozkład zmiennej.

Wady[edytuj | edytuj kod]

Średnia winsorowska jest mniej od mediany odporna na elementy odstające i mniej odporna od średniej arytmetycznej na asymetryczny rozkład zmiennej.

Średnia winsorowska jest przykładem odpornego estymatora (robust) średniej arytmetycznej w populacji. Przy rozkładach asymetrycznych nie jest to jednak estymator nieobciążony.

Dodatkową wadą, w porównaniu ze średnią ucinaną, jest duża waga z jaką do błędu estymacji wchodzą błędy dwóch obserwacji, których wartościami zastępowane są elementy odstające.