Zbiór danych: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
WP:SK+ToS+Bn+mSI, drobne redakcyjne, drobne techniczne
Rescuing 2 sources and tagging 0 as dead.) #IABot (v2.0.8.6
Linia 16: Linia 16:
* Zbiór danych używany w ''Robust Regression and Outlier Detection'' (Rousseeuw and Leroy, 1986). [http://www.uni-koeln.de/themen/Statistik/data/rousseeuw/ Dostępny on-line ze stron Uniwersytetu w Kolonii.]
* Zbiór danych używany w ''Robust Regression and Outlier Detection'' (Rousseeuw and Leroy, 1986). [http://www.uni-koeln.de/themen/Statistik/data/rousseeuw/ Dostępny on-line ze stron Uniwersytetu w Kolonii.]
* Zbiór użyty w książce Chatfielda ''The Analysis of Time Series'', [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ dostępny on-line ze stron StatLib.]
* Zbiór użyty w książce Chatfielda ''The Analysis of Time Series'', [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ dostępny on-line ze stron StatLib.]
* Zbiór użyty w książce ''An Introduction to the Statistical Modeling of Extreme Values'' [http://homes.stat.unipd.it/coles/public_html/ismev/ismev.dat dostępny on-line ze stron Stuarta Coles], autora książki.
* Zbiór użyty w książce ''An Introduction to the Statistical Modeling of Extreme Values'' [https://web.archive.org/web/20060910161517/http://homes.stat.unipd.it/coles/public_html/ismev/ismev.dat dostępny on-line ze stron Stuarta Coles], autora książki.
* Zbiór użyty w książce ''[[Prawdopodobieństwo subiektywne|Bayesian]] Data Analysis'', [http://www.stat.columbia.edu/~gelman/book/data/ dostępny on-line ze stron Andrew Gelmana], jednego z autorów książki.
* Zbiór użyty w książce ''[[Prawdopodobieństwo subiektywne|Bayesian]] Data Analysis'', [http://www.stat.columbia.edu/~gelman/book/data/ dostępny on-line ze stron Andrew Gelmana], jednego z autorów książki.
* [ftp://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders Bupa liver data] (dane na temat chorób [[nerka|nerek]]), używane w wielu artykułach na temat [[uczenie maszynowe|uczenia maszynowego]] i [[eksploracja danych|eksploracji danych]].
* [https://web.archive.org/web/20120404055501/http://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders/ Bupa liver data] (dane na temat chorób [[nerka|nerek]]), używane w wielu artykułach na temat [[uczenie maszynowe|uczenia maszynowego]] i [[eksploracja danych|eksploracji danych]].


== Zobacz też ==
== Zobacz też ==

Wersja z 13:33, 10 mar 2022

Zbiór danych – kolekcja danych statystycznych zwykle ujętych w formie stabelaryzowanej. Najczęściej kolumny odpowiadają obserwowanym cechom statystycznym, a każdy wiersz opisuje jedną obserwację z próby. Wartości komórek macierzy natomiast opisują realizacje danych zmiennych w kolejnych obserwacjach. Szczególnym przypadkiem jest też macierz kontyngencji (tablica wielodzielcza), w której wiersze odpowiadają etykietom jednej zmiennej nominalnej, kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.

Kolumny reprezentujące zmienne na skali interwałowej lub przedziałowej zawierają liczby rzeczywiste, natomiast kolumny opisujące zmienne na skali nominalnej i porządkowej mogą również zawierać liczby, ale także np. etykiety tekstowe. Ponadto w dowolnej komórce może także wystąpić przypadek braku danych, który musi być w jakiś sposób możliwy do zidentyfikowania – niekiedy rezerwuje się dla niego specjalną wartość liczbową lub znakową.

Historycznie, termin powstał w świecie komputerów IBM mainframe, gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym plikom. Dzisiaj w świecie komputerów najbardziej zbliżonym pojęciem do zbioru danych jest tabela w bazie danych.

W statystyce zbiory danych zwykle stanowią wyniki obserwacji pewnej próby statystycznej. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w populacji). Istnieją też zaawansowane metody obliczania istotności statystycznej, które wymagają usuwania lub powielania obserwacji w zbiorze (np. bootstrap, walidacja krzyżowa).

Chociaż termin „zbiór danych” sugeruje związek ze zbiorami w sensie matematycznej teorii mnogości,to jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów zbioru matematycznego.

Klasyczne zbiory danych

Kilka zbiorów danych jest bardzo często używanych w literaturze:

Zobacz też

Przypisy

  1. Fisher, Ronald A. The use of multiple measurements in taxonomic problems. „Annals of eugenics”. 7 (2), s. 179–188, 1936. (ang.). 

Linki zewnętrzne