Test GRIM
Test GRIM (ang. granularity-related inconsistency of means) – prosta technika statystyczna polegająca na sprawdzaniu, czy dany zbiór statystyk opisowych jest możliwy do uzyskania w przedstawionej skali i próbie. Pozwala zidentyfikować potencjalne błędy typograficzne, niekompletne opisy procedury, pomyłki obliczeniowe lub oszustwa naukowe w badaniach. Test wykorzystuje fakt, że w zbiorze danych zawierających N dyskretnych obserwacji możliwe do uzyskania średnie arytmetyczne są ograniczone do skończonej liczby możliwych wartości: są zawsze ułamkiem z licznikiem N. Jeśli przedstawione średnie są niemożliwe, opis badania musi zawierać jakiś błąd; twórcy testu proponują określać takie sytuacje „niespójnościami”, aby nie domniemywać pochopnie złej woli u autorów badań[1].
Test GRIM jest szczególnie adekwatny w dziedzinach takich jak psychologia, w których powszechnie stosuje się relatywnie niewielkie próby i skale pomiarowe oparte na liczbach naturalnych. Technika została zaproponowana przez Nicka Browna i Jamesa Heathersa w 2016 r. (razem z podobnym testem SPRITE), w następstwie popularnego zainteresowania kryzysem replikacji w naukach[2]. Anaya przedstawił także test GRIMMER, rozszerzenie tej metody pozwalające na analizę raportowanej w publikacjach wariancji[3].
Procedura
[edytuj | edytuj kod]Jak stwierdził jeden z autorów, test GRIM jest tak prosty, że trudno było mu uwierzyć, że nie został dotąd opisany[4]. Dla każdej średniej przedstawionej w analizowanym artykule należy ustalić wielkość próby (N), obliczyć wszystkie możliwe ułamki z licznikiem N, i porównać prezentowane średnie z uzyskanymi listami. Narzędzia stworzone i udostępnione przez autorów tolerują ponadto efekty niekonsekwentnego zaokrąglania: akceptują przedstawienie ułamka 1,125 zarówno jako 1,12 i 1,13. Wyniki nieobecne na listach są wskazywane jako matematycznie niemożliwe.
Interpretacja i ograniczenia
[edytuj | edytuj kod]Twórcy testu podkreślają, że niespójności wykryte przez test GRIM nie muszą być rezultatem świadomej złej woli badaczy. Błędy tego typu mogą mieć relatywnie niewinne wyjaśnienia, takie jak pomyłki redakcyjne i typograficzne, błędy oprogramowania, lub nadmierne skróty w opisie struktury badania[4]. Mogą jednak być skutkiem nieuczciwych manipulacji danymi i wynikami (tzw. P-hacking). Miejsce wystąpienia problemu może pomóc w jego wstępnej diagnozie: pojedyncza niespójność w nieistotnej dla hipotezy średniej nie sugeruje złej woli; kilkukrotne niespójności w jednej grupie mogą świadczyć np. o pominiętym w opisie problemie braków odpowiedzi; wielokrotne niespójności w ważnych dla hipotez testach, zwłaszcza gdy powtarzają się pomiędzy różnymi pracami konkretnego autora lub zespołu, mogą świadczyć o poważniejszym problemie i skłaniać do głębszego rozpatrzenia[5].
Technika działa najbardziej precyzyjnie, kiedy analizowana próba jest relatywnie niewielka, skale pomiarowe są krótkie i dobrze opisane, a średnie przedstawiono z dokładnością do kilku miejsc po przecinku. Jeśli charakter skali nie jest jasny, analiza GRIM może wykrywać pozorne błędy – na przykład jeśli pytanie „ile kawałków pizzy zjadłaś(eś)” dopuszczało w badaniu odpowiedzi „dwa i trzy czwarte”[5].
Zastosowania
[edytuj | edytuj kod]Brown i Heathers użyli testu GRIM na 260 artykułach opublikowanych w trzech prestiżowych psychologicznych czasopismach naukowych. Z tej grupy 71 publikacji miało strukturę odpowiednią do takiej analizy; 36 zawierało co najmniej jeden niemożliwy wynik, a 16 zawierało wielokrotne niespójności[2].
Test GRIM (i powiązany test SPRITE) odegrał także ważną rolę w ujawnieniu głębokich błędów w serii publikacji laboratorium psychologii żywienia pod kierunkiem Briana Wansinka na Uniwersytecie Cornella[5][6][7]. Wiele z wyników, publikacji i książek pochodzących z tego laboratorium przyciągało dotąd uwagę światowych mediów jako opis prostych i przyjemnych sztuczek pomagających w odchudzaniu. Zespół ten stosował daleko idący P-hacking; pod narastającą krytyką środowiska naukowego laboratorium wycofało siedem publikacji i wydało erraty do piętnastu opublikowanych wcześniej badań[8].
Zobacz też
[edytuj | edytuj kod]Przypisy
[edytuj | edytuj kod]- ↑ James Heathers , The GRIM test — further points, follow-ups, and future directions [online], Medium, 3 czerwca 2016 [dostęp 2018-05-02] .
- ↑ a b Nick Brown , James Heathers , The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology, „Social Psychological and Personality Science”, 8, 2016, DOI: 10.1177/1948550616673876 [dostęp 2018-05-02] .
- ↑ Jordan Anaya , The GRIMMER test: A method for testing the validity of reported measures of variability, PeerJ Preprints, 29 sierpnia 2016, DOI: 10.7287/peerj.preprints.2400v1 [dostęp 2018-05-02] (ang.).
- ↑ a b James Heathers , The GRIM test — a method for evaluating published research. [online], Medium, 23 maja 2016 [dostęp 2018-05-02] .
- ↑ a b c Jordan Anaya , Tim van der Zee , Nick Brown , Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications, PeerJ Preprints, 14 czerwca 2017, DOI: 10.7287/peerj.preprints.3025v1 [dostęp 2018-05-02] (ang.).
- ↑ Tom Bartlett , Spoiled Science, „The Chronicle of Higher Education”, 17 marca 2017 [dostęp 2018-05-02] .
- ↑ Andrew Gelman, Pizzagate, or the curious incident of the researcher in response to people pointing out 150 errors in four of his papers – Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 3 lutego 2017 [dostęp 2018-05-02] (ang.).
- ↑ Stephanie M. Lee , Sliced And Diced: The Inside Story Of How An Ivy League Food Scientist Turned Shoddy Data Into Viral Studies, „BuzzFeed” [dostęp 2018-05-02] (ang.).