Test GRIM

Test GRIM (ang. granularity-related inconsistency of means) – prosta technika statystyczna polegająca na sprawdzaniu, czy dany zbiór statystyk opisowych jest możliwy do uzyskania w przedstawionej skali i próbie. Pozwala zidentyfikować potencjalne błędy typograficzne, niekompletne opisy procedury, pomyłki obliczeniowe lub oszustwa naukowe w badaniach. Test wykorzystuje fakt, że w zbiorze danych zawierających N dyskretnych obserwacji możliwe do uzyskania średnie arytmetyczne są ograniczone do skończonej liczby możliwych wartości: są zawsze ułamkiem z licznikiem N. Jeśli przedstawione średnie są niemożliwe, opis badania musi zawierać jakiś błąd; twórcy testu proponują określać takie sytuacje „niespójnościami”, aby nie domniemywać pochopnie złej woli u autorów badań^[1].

Test GRIM jest szczególnie adekwatny w dziedzinach takich jak psychologia, w których powszechnie stosuje się relatywnie niewielkie próby i skale pomiarowe oparte na liczbach naturalnych. Technika została zaproponowana przez Nicka Browna i Jamesa Heathersa w 2016 r. (razem z podobnym testem SPRITE), w następstwie popularnego zainteresowania kryzysem replikacji w naukach^[2]. Anaya przedstawił także test GRIMMER, rozszerzenie tej metody pozwalające na analizę raportowanej w publikacjach wariancji^[3].

Procedura

Jak stwierdził jeden z autorów, test GRIM jest tak prosty, że trudno było mu uwierzyć, że nie został dotąd opisany^[4]. Dla każdej średniej przedstawionej w analizowanym artykule należy ustalić wielkość próby (N), obliczyć wszystkie możliwe ułamki z licznikiem N, i porównać prezentowane średnie z uzyskanymi listami. Narzędzia stworzone i udostępnione przez autorów tolerują ponadto efekty niekonsekwentnego zaokrąglania: akceptują przedstawienie ułamka 1,125 zarówno jako 1,12 i 1,13. Wyniki nieobecne na listach są wskazywane jako matematycznie niemożliwe.

Interpretacja i ograniczenia

Twórcy testu podkreślają, że niespójności wykryte przez test GRIM nie muszą być rezultatem świadomej złej woli badaczy. Błędy tego typu mogą mieć relatywnie niewinne wyjaśnienia, takie jak pomyłki redakcyjne i typograficzne, błędy oprogramowania, lub nadmierne skróty w opisie struktury badania^[4]. Mogą jednak być skutkiem nieuczciwych manipulacji danymi i wynikami (tzw. P-hacking). Miejsce wystąpienia problemu może pomóc w jego wstępnej diagnozie: pojedyncza niespójność w nieistotnej dla hipotezy średniej nie sugeruje złej woli; kilkukrotne niespójności w jednej grupie mogą świadczyć np. o pominiętym w opisie problemie braków odpowiedzi; wielokrotne niespójności w ważnych dla hipotez testach, zwłaszcza gdy powtarzają się pomiędzy różnymi pracami konkretnego autora lub zespołu, mogą świadczyć o poważniejszym problemie i skłaniać do głębszego rozpatrzenia^[5].

Technika działa najbardziej precyzyjnie, kiedy analizowana próba jest relatywnie niewielka, skale pomiarowe są krótkie i dobrze opisane, a średnie przedstawiono z dokładnością do kilku miejsc po przecinku. Jeśli charakter skali nie jest jasny, analiza GRIM może wykrywać pozorne błędy – na przykład jeśli pytanie „ile kawałków pizzy zjadłaś(eś)” dopuszczało w badaniu odpowiedzi „dwa i trzy czwarte”^[5].

Zastosowania

Brown i Heathers użyli testu GRIM na 260 artykułach opublikowanych w trzech prestiżowych psychologicznych czasopismach naukowych. Z tej grupy 71 publikacji miało strukturę odpowiednią do takiej analizy; 36 zawierało co najmniej jeden niemożliwy wynik, a 16 zawierało wielokrotne niespójności^[2].

Test GRIM (i powiązany test SPRITE) odegrał także ważną rolę w ujawnieniu głębokich błędów w serii publikacji laboratorium psychologii żywienia pod kierunkiem Briana Wansinka na Uniwersytecie Cornella^[5]^[6]^[7]. Wiele z wyników, publikacji i książek pochodzących z tego laboratorium przyciągało dotąd uwagę światowych mediów jako opis prostych i przyjemnych sztuczek pomagających w odchudzaniu. Zespół ten stosował daleko idący P-hacking; pod narastającą krytyką środowiska naukowego laboratorium wycofało siedem publikacji i wydało erraty do piętnastu opublikowanych wcześniej badań^[8].

Zobacz też

Przypisy

↑ JamesJ. Heathers JamesJ., The GRIM test — further points, follow-ups, and future directions [online], Medium, 3 czerwca 2016 [dostęp 2018-05-02] .
↑ ^a ^b NickN. Brown NickN., JamesJ. Heathers JamesJ., The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology, „Social Psychological and Personality Science”, 8, 2016, DOI: 10.1177/1948550616673876 [dostęp 2018-05-02] .
↑ JordanJ. Anaya JordanJ., The GRIMMER test: A method for testing the validity of reported measures of variability, PeerJ Preprints, 29 sierpnia 2016, DOI: 10.7287/peerj.preprints.2400v1 [dostęp 2018-05-02] (ang.).
↑ ^a ^b JamesJ. Heathers JamesJ., The GRIM test — a method for evaluating published research. [online], Medium, 23 maja 2016 [dostęp 2018-05-02] .
↑ ^a ^b ^c JordanJ. Anaya JordanJ., Tim van derT. Zee Tim van derT., NickN. Brown NickN., Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications, PeerJ Preprints, 14 czerwca 2017, DOI: 10.7287/peerj.preprints.3025v1 [dostęp 2018-05-02] (ang.).
↑ TomT. Bartlett TomT., Spoiled Science, „The Chronicle of Higher Education”, 17 marca 2017 [dostęp 2018-05-02] .
↑ AndrewA. Gelman AndrewA., Pizzagate, or the curious incident of the researcher in response to people pointing out 150 errors in four of his papers – Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 3 lutego 2017 [dostęp 2018-05-02] (ang.).
↑ Stephanie M.S.M. Lee Stephanie M.S.M., Sliced And Diced: The Inside Story Of How An Ivy League Food Scientist Turned Shoddy Data Into Viral Studies, „BuzzFeed” [dostęp 2018-05-02] (ang.).

[1] JamesJ. Heathers JamesJ., The GRIM test — further points, follow-ups, and future directions [online], Medium, 3 czerwca 2016 [dostęp 2018-05-02] .

[:0-2] NickN. Brown NickN., JamesJ. Heathers JamesJ., The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology, „Social Psychological and Personality Science”, 8, 2016, DOI: 10.1177/1948550616673876 [dostęp 2018-05-02] .

[3] JordanJ. Anaya JordanJ., The GRIMMER test: A method for testing the validity of reported measures of variability, PeerJ Preprints, 29 sierpnia 2016, DOI: 10.7287/peerj.preprints.2400v1 [dostęp 2018-05-02] (ang.).

[:1-4] JamesJ. Heathers JamesJ., The GRIM test — a method for evaluating published research. [online], Medium, 23 maja 2016 [dostęp 2018-05-02] .

[:2-5] JordanJ. Anaya JordanJ., Tim van derT. Zee Tim van derT., NickN. Brown NickN., Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications, PeerJ Preprints, 14 czerwca 2017, DOI: 10.7287/peerj.preprints.3025v1 [dostęp 2018-05-02] (ang.).

[6] TomT. Bartlett TomT., Spoiled Science, „The Chronicle of Higher Education”, 17 marca 2017 [dostęp 2018-05-02] .

[7] AndrewA. Gelman AndrewA., Pizzagate, or the curious incident of the researcher in response to people pointing out 150 errors in four of his papers – Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 3 lutego 2017 [dostęp 2018-05-02] (ang.).

[8] Stephanie M.S.M. Lee Stephanie M.S.M., Sliced And Diced: The Inside Story Of How An Ivy League Food Scientist Turned Shoddy Data Into Viral Studies, „BuzzFeed” [dostęp 2018-05-02] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]