Zbiór danych: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
ChuispastonBot (dyskusja | edycje)
m r2.7.1) (Robot dodał pt:Conjunto de dados
EmausBot (dyskusja | edycje)
m r2.7.2+) (Robot dodał ar:مجموعة البيانات
Linia 38: Linia 38:
[[Kategoria:Przygotowanie danych]]
[[Kategoria:Przygotowanie danych]]


[[ar:مجموعة البيانات]]
[[de:Dataset]]
[[de:Dataset]]
[[en:Data set]]
[[en:Data set]]

Wersja z 09:35, 25 mar 2012

Zbiór danych – kolekcja danych statystycznych zwykle ujętych w formie stabelaryzowanej.

Najczęściej kolumny odpowiadają obserwowanym cechom statystycznym a każdy wiersz opisuje jedną obserwację z próby. Wartości komórek macierzy opisują realizacje danych zmiennych w kolejnych obserwacjach.

Szczególnym przypadkiem jest też macierz kontyngencji (tablica wielodzielcza) w której wiersze odpowiadają etykietom jednej zmiennej nominalnej, kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.

Historycznie, termin powstał w świecie komputerów IBM mainframe, gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym plikom. Dzisiaj w świecie komputerów najbliższym pojęciem jest tabela w bazie danych.

Kolumny reprezentujące zmienne na skali interwałowej lub przedziałowej zawierają liczby rzeczywiste. Kolumny opisujące zmienne na skali nominalnej i porządkowej mogą również być liczbami, ale także np. etykietami tekstowymi.

Ponadto w może w dowolnej komórce wystąpić brak danych, który musi być w jakiś sposób możliwy do odróżnienia. Niekiedy rezerwuje się dla niego specjalną wartość liczbową i znakową.

W statystyce zbiory danych zwykle stanowią wyniki obserwacji pewnej próby statystycznej. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w populacji). Istnieją też zaawansowane metody obliczania istotności statystycznej, które wymagają usuwania lub powielania obserwacji w zbiorze (np. bootstrap, walidacja krzyżowa).

Chociaż termin "zbiór danych" sugeruje związek ze zbiorami w sensie matematycznej teorii mnogości, jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów matematycznych zbiorów.

Klasyczne zbiory danych

Kilka zbiorów danych jest bardzo często używanych w literaturze:

  1. Fisher, R.A.: The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 1936, s. tom 7, str 179–188. http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf

Zobacz też

Linki zewnętrzne