Obserwacja odstająca
Obserwacja odstająca / element odstający (ang. outlier) – w statystyce obserwacja, która nie pasuje do modelu.
W najprostszym przypadku może to być na przykład obserwacja z wartością którejś zmiennej pięciokrotnie większą od największej z pozostałych wartości tej zmiennej.
Obserwacje odstające są na ogół spowodowane błędami w danych, na skutek błędnego pomiaru, pomyłek we wprowadzaniu informacji do bazy danych itp. Duża liczba elementów odstających może też być sygnałem dobrania złego modelu.
Obserwacje odstające powstałe na skutek błędów w danych utrudniają i w skrajnym przypadku uniemożliwiają analizę. Szczególnie mało odporne na nie są metody i współczynniki bazujące na założeniu rozkładu normalnego i zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa, klasyczna analiza korespondencji, itp. Jeden element odstający może całkowicie zmienić wartość i znak korelacji, nawet z +0,9 do -0,9.
Konieczne jest więc albo usuwanie obserwacji odstających, albo stosowanie odpornych metod statystycznych (ang. robust), np. metod rangowych.
Przykładowo zamiast zwykłej korelacji można stosować korelację rangową Spearmana, albo tau Kendalla.
Bibliografia[edytuj]
- Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006, s. 289,304. ISBN 83-204-3242-1.