Imputacja

Imputacja – sztuczne wstawienie pewnych wartości do tabeli danych. Na ogół imputacja jest wykonywana w celu usunięcia tzw. braków danych, czyli wartości nieznanych. Wiele metod statystycznych nie akceptuje bowiem obserwacji z brakami danych.

Istnieje wiele różnych metod uzupełniania braków danych (ang. missing data imputation), najprostszą jest zastąpienie braków danych średnią ze wszystkich wartości danej zmiennej w próbce.

Imputacja wielokrotna[edytuj | edytuj kod]

Zaawansowaną, a przy tym uniwersalną metodą imputacji jest imputacja wielokrotna (ang. Multiple Imputation) Rubina^[1]. Metoda ta działa w następujący sposób:

Niech $M\colon A\rightarrow B$ jest dowolną metodą statystyczną wymagającą kompletnych danych, której dane wejściowe to $A$ a dane wyjściowe to $B.$ Załóżmy, że nasze dane $X$ mają braki danych, a chcielibyśmy zastosować metodę $M.$

1. Estymujemy parametry wielowymiarowego rozkładu $R$ danych $X.$
2. Wykonujemy w pętli dużą liczbę razy, dla $i=1,2,\dots ,N$ następujące czynności:

2a. Uzupełniamy braki danych w

X

wartościami wylosowanymi z rozkładu

R,

uzyskując

X_{i}

2b. Stosujemy metodę

M,

czyli wyliczamy

Y_{i}=M(X_{i})

3. Łączymy (uśredniamy) wyniki $Y_{1},Y_{2}\dots ,Y_{N},$ aby otrzymać $Y.$ Algorytm łączenia musi być dobrany do metody $M.$ W przypadku metod, dla których $Y$ jest liczbą rzeczywistą, może to być np. średnia arytmetyczna. W przypadku niektórych metod (np. analiza skupień) łączenie nie jest trywialne i może być wręcz niemożliwe.

Przypisy[edytuj | edytuj kod]

↑ D.B. Rubin: Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons, 1987.

Linki zewnętrzne[edytuj | edytuj kod]

Multiple imputation FAQ. stat.psu.edu. [zarchiwizowane z tego adresu (2005-02-12)]. (ang.)

[1] D.B. Rubin: Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons, 1987.

[1]