Brakujące dane

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Brakujące dane (braki danych) to w statystyce miejsca w danych, których wartości nie są znane. Mogą powstawać w sposób naturalny (np. w wyborach znane są wstępne wyniki jedynie z części komisji wyborczych), lub sztuczny (np. po usunięciu obserwacji odstających).

Techniki pracy z brakującymi danymi[edytuj | edytuj kod]

  • Imputacja
  • estymacja metodą największej wiarygodności
  • dodanie zmiennej mówiącej, że w danym miejscu znajduje się brak danych i zastąpienie go np. zerem
  • usunięcie całych obserwacji w których występuje brak danych
  • dla metod porównujących pary wartości (np. korelacja) usuwanie par z brakiem danych
  • zastąpienie średnią lub medianą
  • Mplus
  • MCAR (missing completely at random)
  • tzw. cenzorowanie w przypadku analizy przeżycia

Bibliografia[edytuj | edytuj kod]

  • Little, R. J. A. & Rubin, D. B.. Statistical Analysis with Missing Data. John Wiley and Sons, New York, 2002.
  • Acock, A. C, Working With Missing Values, JOURNAL OF MARRIAGE AND FAMILY, 2005, VOL 67; NUMBER 4, pages 1012-1028
  • Jan Van den Broeck, Solveig Argeseanu Cunningham, Roger Eeckels, and Kobus Herbst, Data Cleaning: Detecting, Diagnosing, and Editing Data Abnormalities, PLoS Med. 2005 October; 2(10): e267. [1]

Linki zewnętrzne[edytuj | edytuj kod]