Imputacja
Imputacja - w statystyce sztuczne wstawienie pewnych wartości do tabeli danych. Na ogół imputacja jest wykonywana w celu usunięcia tzw. braków danych, czyli wartości nieznanych. Wiele metod statystycznych nie akceptuje bowiem obserwacji z brakami danych.
Istnieje wiele różnych metod uzupełniania braków danych (ang. missing data imputation), najprostszą jest zastąpienie braków danych średnią ze wszystkich wartości danej zmiennej w próbce.
[edytuj] Multiple Imputation
Zaawansowaną, a przy tym uniwersalną metodą imputacji jest Multiple Imputation (brak polskiej nazwy) Rubina[1]. Metoda ta działa w następujący sposób:
Niech
jest dowolną metodą statystyczną wymagającą kompletnych danych, której dane wejściowe to
a dane wyjściowe to
. Załóżmy, że nasze dane
mają braki danych, a chcielibyśmy zastosować metodę
.
1. Estymujemy parametry wielowymiarowego rozkładu
danych
.
2. Wykonujemy w pętli dużą liczbę razy, dla
następujące czynności:
- 2a. Uzupełniamy braki danych w
wartościami wylosowanymi z rozkładu
, uzyskując 
- 2b. Stosujemy metodę
, czyli wyliczamy 
3. Łączymy (uśredniamy) wyniki
aby otrzymać
. Algorytm łączenia musi być dobrany do metody
. W przypadku metod, dla których
jest liczbą rzeczywistą, może to być np. średnia arytmetyczna. W przypadku niektórych metod (np. analiza skupień) łączenie nie jest trywialne i może być wręcz niemożliwe.
[edytuj] Linki zewnętrzne
Przypisy
- ↑ D.B. Rubin: Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons, 1987.

