Bootstrap (statystyka)

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Bootstrap[1] – opracowana przez Bradleya Efrona metoda szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Jest przydatna szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych.

Próba bootstrap[edytuj]

Próbą bootstrap (lub próbą typu bootstrap) nazywamy n-elementową próbę losową z rozkładu pewnej ustalonej n-elementowej próby z populacji .

Innymi słowy jest to próba powstała przez losowanie ze zwracaniem n elementów z .

Zasada bootstrap[edytuj]

Niech będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:

i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator :

Warunki te spełnia szeroka klasa statystyk.

Zasada bootstrap mówi, że rozkład statystyki

przy ustalonej realizacji , jest bliski rozkładowi statystyki

,

czyli rozkładowi błędów estymacji parametru w populacji.

Metoda bootstrap[edytuj]

Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:

  1. wielokrotnie (k razy) wylosować niezależne próby losowe bootstrap na postawie jednej realizacji .
  2. obliczyć dla nich wartości:

Otrzymany rozkład jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki zastosowanej do próby n-elementowej parametru w populacji.

Liczba k powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.

Błąd standardowy typu bootstrap[edytuj]

Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:

gdzie

Przedziały ufności typu bootstrap[edytuj]

Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:

Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.

Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:

gdzie to kwantyl rzędu z rozkładu

Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.

Testowanie hipotez metodą bootstrap[edytuj]

Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.

Na przykład, gdy hipotezą zerową jest wartość oczekiwana w populacji , a w próbie uzyskaliśmy średnią wówczas p-wartość jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej 10 - 9,23 = 0,77. Prawdopodobieństwo to można oszacować, losując próby bootstrap z i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział .

Odmiany metody[edytuj]

Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby lecz z rozkładu podobnego do rozkładu z wygładzoną dystrybuantą.

Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.

Odmiana bootstrapu zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).

Bibliografia[edytuj]

  • Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2001, s. 445-454.
  • Bradley Efron: The jackknife, the bootstrap, and other resampling plans. Philadelphia: Pa. Society for Industrial and Applied Mathematics, 1982.
  • L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone: Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.

Linki zewnętrzne[edytuj]

Przypisy

  1. Etymologia w artykule bootstrap.