Badania eksploracyjne

Badania eksploracyjne (EDA, ang. exploratory data analysis) – podejście we wnioskowaniu statystycznym obejmujące opis, wizualizację i badanie zebranych danych bez potrzeby zakładania z góry hipotez badawczych. Jest wstępnym etapem procesu naukowego. Może korzystać z metod modelowania statystycznego i weryfikacji hipotez statystycznych, ale używa ich do odnajdywania, a nie potwierdzania idei^[1]. Ma ona na celu wzbogacenia wiedzy naukowej o hipotezy, które mogą nasunąć nieukierunkowana obserwacja i analizy. Badania eksploracyjne obejmują też wstępne sprawdzanie danych w celu skontrolowania założeń modeli statystycznych, lub występowania błędów w danych (np. brakujących odpowiedzi). Jest to klasyczne podejście, z którego wraz z rosnącą dostępnością komputerów wyłoniła się dziedzina komputerowej eksploracji danych (data miningu), oraz data science i big data. Eksplorację danych jako osobne podejście spopularyzował statystyk John Tukey.

Przegląd[edytuj | edytuj kod]

Tukey zdefiniował analizę danych w 1961 r. jako „procedury analizowania danych, metody interpretowania wyników takich procedur, sposoby projektowania zbierania danych w celu uczynienia ich analizy łatwiejszą lub bardziej dokładną, oraz wszystkie techniki statystyczne które mogą być stosowane w badaniu danych^[2].”

Promocja podejścia EDA była jednym z czynników stojących za dynamicznym rozwojem komputerowych pakietów statystycznych, w szczególności języka S w Laboratoriach Bella, który stał się protoplastą współczesnego języka programowania statystycznego R. Ta rodzina komputerowych środowisk statystycznych rozpowszechniła nowoczesne metody wizualizacji danych, co umożliwiło statystykom sprawniejsze rozpoznawanie w danych obserwacji odstających, oraz nieprzewidzianych trendów i wzorców, które mogą być warte dalszego zbadania.

Rozwój technik eksploracyjnych był też związany z postępem w dwóch innych obszarach statystyki: metod odpornościowych oraz statystyk nieparametrycznych, które służą uniezależnieniu wnioskowania statystycznego od wyidealizowanych modeli, i zmniejszeniu jej wrażliwości na niestandardowe postaci danych. Tukey zachęcał do korzystania z większej liczby statystyk opisowych, niż tylko średniej i odchylenia standardowego, do przedstawiania zbiorów obserwacji: minimum i maksimum, mediany i kwartyli – ponieważ charakteryzują one każdy rozkład empiryczny, i są bardziej odporne wobec wysokiej skośności lub kurtozy. Komputerowe pakiety statystyczne udostępniły także metody samowsporne (bootstrap), które są nieparametryczne i szczególnie odporne dla wielu klas problemów.

Eksploracja danych, statystyki odpornościowe i nieparametryczne, oraz rozwój języków programowania statystycznego ułatwiły pracę statystyków w wielu obszarach nauki i inżynierii, i doprowadziły do wyłonienia się odrębnych dziedzin komputerowej eksploracji danych (data mining), data science i analizowaniu big data^[3].

Rozwój[edytuj | edytuj kod]

John Tukey wyraził w opublikowanej w 1977 r. książce Exploratory Data Analysis przekonanie, że statystyka klasyczna kładzie zbyt duży nacisk na weryfikację hipotez statystycznych (badania konfirmacyjne); więcej uwagi należy, jego zdaniem, poświęcić możliwości używania danych na własnych prawach jako źródła nowych hipotez. Zauważył, że w praktyce badania o charakterze de facto eksploracyjnym są często przedstawiane, np. wskutek presji publikacyjnej, jako badania konfirmacyjne, co może prowadzić do systematycznych przekłamań wiążących się w podejściu częstościowym z testowaniem niezaplanowanych hipotez^[4].

Cele badań eksploracyjnych obejmują:

Proponowanie nowych hipotez o obserwowanych w danych zależnościach
Sprawdzanie zgodności danych z założeniami modeli statystycznych
Wybranie adekwatnego do charakteru danych zestawu narzędzi i technik analizy

Narzędzia[edytuj | edytuj kod]

Badania eksploracyjne mogą korzystać z dowolnych narzędzi, ponieważ istotą tego podejścia jest stosunek do danych i hipotez^[5]. Niektóre techniki eksploracyjne to na przykład:

Wizualizacja[edytuj | edytuj kod]

Wyszukiwanie wzorców[edytuj | edytuj kod]

Przykład[edytuj | edytuj kod]

Odkrycia płynące z eksploracji danych są często efektem ubocznym podstawowego badania konfirmacyjnego. Przykładem może być badanie hipotezy, że liczba osób przy stoliku restauracyjnym wpływa na wielkość otrzymanego przez obsługę napiwku^[6]. Poza tymi zmiennymi, dane z badania zawierają ogólną wysokość rachunku, płeć klientów, obecność osób palących papierosy, porę dnia oraz dzień tygodnia. Test głównej hipotezy wykonany jest przy pomocy analizy regresji, która wyłania model:

napiwek = 0.18 - 0.01×liczba_osób

który sugeruje, że wysokość napiwku statystycznie maleje o 1% wraz z każdą kolejną osobą przy stoliku. Wykreślenie danych ujawnia dodatkowe potencjalne zależności, których nie przewidziano w badaniu, i które podsuwają nowe hipotezy do zbadania:

Histogram wielkości napiwków, w przedziałach wartości odpowiadających wzrostowi o $1. Rozkład wartości jest prawoskośny i unimodalny, co oznacza że napiwki są w większości niewielkie.
Histogram napiwków w przedziałach o szerokości odpowiadających wzrostowi o 10¢. Można zauważyć piki odpowiadające okrągłym liczbom, co wskazuje, że klienci mają skłonność do zaokrąglania kwot. Jest to często obserwowane i zrozumiałe zjawisko.
Wykres punktowy przedstawiający współzależność wysokości napiwków i płatności. Można byłoby oczekiwać bardziej ścisłej, liniowej zależności, jednak obserwujemy dużą zmienność.
Wykres punktowy wysokości napiwków względem rachunku, podzielony według płci i obecności palaczy. Palące osoby charakteryzuje większa zmienność wysokości napiwków. Mężczyźni płacą wyższe rachunki, a niepalące kobiety są grupą najbardziej przewidywalnie dającą napiwki.

Przypisy[edytuj | edytuj kod]

↑ Open Science Collaboration, Maximizing the reproducibility of your research, [w:] Scott OwenS.O. Lilienfeld, Irwin DouglasI.D. Waldman (red.), Psychological Science Under Scrutiny: Recent Challenges and Proposed Solutions, New York: Wiley-Blackwell, marzec 2017, ISBN 978-1-118-66107-9 .
↑ John WilderJ.W. Tukey John WilderJ.W., The Future of Data Analysis, „The Annals of Mathematical Statistics”, 33 (1), 1962, s. 1–67, DOI: 10.1214/aoms/1177704711, ISSN 0003-4851 [dostęp 2019-07-01] (ang.).
↑ Luisa T. Fernholz, Stephan Morgenthaler. A conversation with John W. Tukey and Elizabeth Tukey. „Statistical Science”. 15 (1), s. 79–94, 2000-02-01. DOI: 10.1214/ss/1009212675. ISSN 0883-4237. [dostęp 2017-01-15].
↑ John Wilder Tukey: Exploratory data analysis. Pearson, 1977-01-01. ISBN 978-0-201-07616-5.
↑ John Wilder Tukey. We Need Both Exploratory and Confirmatory. „The American Statistician”. 34 (1), s. 23–25, 1980-02-01. DOI: 10.1080/00031305.1980.10482706. ISSN 0003-1305. [dostęp 2017-01-15].
↑ Deborah F.D.F. Swayne Deborah F.D.F., Interactive and Dynamic Graphics for Data Analysis: with R and GGobi, Springer Verlag, 2007, ISBN 978-0-387-71761-6, OCLC 154711874 .

[1] Open Science Collaboration, Maximizing the reproducibility of your research, [w:] Scott OwenS.O. Lilienfeld, Irwin DouglasI.D. Waldman (red.), Psychological Science Under Scrutiny: Recent Challenges and Proposed Solutions, New York: Wiley-Blackwell, marzec 2017, ISBN 978-1-118-66107-9 .

[2] John WilderJ.W. Tukey John WilderJ.W., The Future of Data Analysis, „The Annals of Mathematical Statistics”, 33 (1), 1962, s. 1–67, DOI: 10.1214/aoms/1177704711, ISSN 0003-4851 [dostęp 2019-07-01] (ang.).

[3] Luisa T. Fernholz, Stephan Morgenthaler. A conversation with John W. Tukey and Elizabeth Tukey. „Statistical Science”. 15 (1), s. 79–94, 2000-02-01. DOI: 10.1214/ss/1009212675. ISSN 0883-4237. [dostęp 2017-01-15].

[4] John Wilder Tukey: Exploratory data analysis. Pearson, 1977-01-01. ISBN 978-0-201-07616-5.

[5] John Wilder Tukey. We Need Both Exploratory and Confirmatory. „The American Statistician”. 34 (1), s. 23–25, 1980-02-01. DOI: 10.1080/00031305.1980.10482706. ISSN 0003-1305. [dostęp 2017-01-15].

[6] Deborah F.D.F. Swayne Deborah F.D.F., Interactive and Dynamic Graphics for Data Analysis: with R and GGobi, Springer Verlag, 2007, ISBN 978-0-387-71761-6, OCLC 154711874 .

[1]

[2]

[3]

[4]

[5]

[6]