Zbiór danych

Zbiór danych – kolekcja danych statystycznych zwykle ujętych w formie stabelaryzowanej. Najczęściej kolumny odpowiadają obserwowanym cechom statystycznym, a każdy wiersz opisuje jedną obserwację z próby. Wartości komórek macierzy natomiast opisują realizacje danych zmiennych w kolejnych obserwacjach. Szczególnym przypadkiem jest też macierz kontyngencji (tablica wielodzielcza), w której wiersze odpowiadają etykietom jednej zmiennej nominalnej, kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.

Kolumny reprezentujące zmienne na skali interwałowej lub przedziałowej zawierają liczby rzeczywiste, natomiast kolumny opisujące zmienne na skali nominalnej i porządkowej mogą również zawierać liczby, ale także np. etykiety tekstowe. Ponadto w dowolnej komórce może także wystąpić przypadek braku danych, który musi być w jakiś sposób możliwy do zidentyfikowania – niekiedy rezerwuje się dla niego specjalną wartość liczbową lub znakową.

Historycznie, termin powstał w świecie komputerów IBM mainframe, gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym plikom. Dzisiaj w świecie komputerów najbardziej zbliżonym pojęciem do zbioru danych jest tabela w bazie danych.

W statystyce zbiory danych zwykle stanowią wyniki obserwacji pewnej próby statystycznej. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w populacji). Istnieją też zaawansowane metody obliczania istotności statystycznej, które wymagają usuwania lub powielania obserwacji w zbiorze (np. bootstrap, walidacja krzyżowa).

Chociaż termin „zbiór danych” sugeruje związek ze zbiorami w sensie matematycznej teorii mnogości,to jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów zbioru matematycznego.

Klasyczne zbiory danych[edytuj | edytuj kod]

Kilka zbiorów danych jest bardzo często używanych w literaturze:

Iris flower data set (zbiór danych na temat irysów) – wielowymiarowy zbiór danych wprowadzony przez Rolanda Fishera (1936)^[1].
Zbiór danych wprowadzony w książce An Introduction to Categorical Data Analysis, autorstwa Agrestiego, dostępny on-line ze stron StatLib
Zbiór danych używany w Robust Regression and Outlier Detection (Rousseeuw and Leroy, 1986). Dostępny on-line ze stron Uniwersytetu w Kolonii.
Zbiór użyty w książce Chatfielda The Analysis of Time Series, dostępny on-line ze stron StatLib.
Zbiór użyty w książce An Introduction to the Statistical Modeling of Extreme Values dostępny on-line ze stron Stuarta Coles, autora książki.
Zbiór użyty w książce Bayesian Data Analysis, dostępny on-line ze stron Andrew Gelmana, jednego z autorów książki.
Bupa liver data. ftp.ics.uci.edu. [zarchiwizowane z tego adresu (2012-04-04)]. (dane na temat chorób nerek), używane w wielu artykułach na temat uczenia maszynowego i eksploracji danych.

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

↑ Fisher, Ronald A. The use of multiple measurements in taxonomic problems. „Annals of eugenics”. 7 (2), s. 179–188, 1936. (ang.).

Linki zewnętrzne[edytuj | edytuj kod]

StatLib--Datasets Archive (ang.)
StatLib--JASA Data Archive (ang.)

[fisher1936use-1] Fisher, Ronald A. The use of multiple measurements in taxonomic problems. „Annals of eugenics”. 7 (2), s. 179–188, 1936. (ang.).

[1]