Test GRIM

Z Wikipedii, wolnej encyklopedii

Test GRIM (ang. granularity-related inconsistency of means) – prosta technika statystyczna polegająca na sprawdzaniu, czy dany zbiór statystyk opisowych jest możliwy do uzyskania w przedstawionej skali i próbie. Pozwala zidentyfikować potencjalne błędy typograficzne, niekompletne opisy procedury, pomyłki obliczeniowe lub oszustwa naukowe w badaniach. Test wykorzystuje fakt, że w zbiorze danych zawierających N dyskretnych obserwacji możliwe do uzyskania średnie arytmetyczne są ograniczone do skończonej liczby możliwych wartości: są zawsze ułamkiem z licznikiem N. Jeśli przedstawione średnie są niemożliwe, opis badania musi zawierać jakiś błąd; twórcy testu proponują określać takie sytuacje „niespójnościami”, aby nie domniemywać pochopnie złej woli u autorów badań[1].

Test GRIM jest szczególnie adekwatny w dziedzinach takich jak psychologia, w których powszechnie stosuje się relatywnie niewielkie próby i skale pomiarowe oparte o liczby naturalne. Technika została zaproponowana przez Nicka Browna i Jamesa Heathersa w 2016 r. (razem z podobnym testem SPRITE), w następstwie popularnego zainteresowania kryzysem replikacji w naukach[2]. Anaya przedstawił także test GRIMMER, rozszerzenie tej metody pozwalające na analizę raportowanej w publikacjach wariancji[3].

Procedura[edytuj | edytuj kod]

Jak stwierdził jeden z autorów, test GRIM jest tak prosty, że trudno było mu uwierzyć, że nie został dotąd opisany[4]. Dla każdej średniej przedstawionej w analizowanym artykule należy ustalić wielkość próby (N), obliczyć wszystkie możliwe ułamki z licznikiem N, i porównać prezentowane średnie z uzyskanymi listami. Narzędzia stworzone i udostępnione przez autorów tolerują ponadto efekty niekonsekwentnego zaokrąglania: akceptują przedstawienie ułamka 1,125 zarówno jako 1,12 i 1,13. Wyniki nieobecne na listach są wskazywane jako matematycznie niemożliwe.

Interpretacja i ograniczenia[edytuj | edytuj kod]

Twórcy testu podkreślają, że niespójności wykryte przez test GRIM nie muszą być rezultatem świadomej złej woli badaczy. Błędy tego typu mogą mieć relatywnie niewinne wyjaśnienia, takie jak pomyłki redakcyjne i typograficzne, błędy oprogramowania, lub nadmierne skróty w opisie struktury badania[4]. Mogą jednak być skutkiem nieuczciwych manipulacji danymi i wynikami (tzw. P-hacking). Miejsce wystąpienia problemu może pomóc w jego wstępnej diagnozie: pojedyncza niespójność w nieistotnej dla hipotezy średniej nie sugeruje złej woli; kilkukrotne niespójności w jednej grupie mogą świadczyć np. o pominiętym w opisie problemie braków odpowiedzi; wielokrotne niespójności w ważnych dla hipotez testach, zwłaszcza gdy powtarzają się pomiędzy różnymi pracami konkretnego autora lub zespołu, mogą świadczyć o poważniejszym problemie i skłaniać do głębszego rozpatrzenia[5].

Technika działa najbardziej precyzyjnie, kiedy analizowana próba jest relatywnie niewielka, skale pomiarowe są krótkie i dobrze opisane, a średnie przedstawiono z dokładnością do kilku miejsc po przecinku. Jeśli charakter skali nie jest jasny, analiza GRIM może wykrywać pozorne błędy – na przykład jeśli pytanie „ile kawałków pizzy zjadłaś(eś)” dopuszczało w badaniu odpowiedzi „dwa i trzy czwarte”[5].

Zastosowania[edytuj | edytuj kod]

Brown i Heathers użyli testu GRIM na 260 artykułach opublikowanych w trzech prestiżowych psychologicznych czasopismach naukowych. Z tej grupy 71 publikacji miało strukturę odpowiednią do takiej analizy; 36 zawierało co najmniej jeden niemożliwy wynik, a 16 zawierało wielokrotne niespójności[2].

Test GRIM (i powiązany test SPRITE) odegrał także ważną rolę w ujawnieniu głębokich błędów w serii publikacji laboratorium psychologii żywienia pod kierunkiem Briana Wansinka na Uniwersytecie Cornella[5][6][7]. Wiele z wyników, publikacji i książek pochodzących z tego laboratorium przyciągało dotąd uwagę światowych mediów jako opis prostych i przyjemnych sztuczek pomagających w odchudzaniu. Zespół ten stosował daleko idący P-hacking; pod narastającą krytyką środowiska naukowego laboratorium wycofało siedem publikacji i wydało erraty do piętnastu opublikowanych wcześniej badań[8].

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. James Heathers, The GRIM test — further points, follow-ups, and future directions [online], Medium, 3 czerwca 2016 [dostęp 2018-05-02].
  2. a b Nick Brown, James Heathers, The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology, „Social Psychological and Personality Science”, 8, 2016, DOI10.1177/1948550616673876 [dostęp 2018-05-02].
  3. Jordan Anaya, The GRIMMER test: A method for testing the validity of reported measures of variability, PeerJ Preprints, 29 sierpnia 2016, DOI10.7287/peerj.preprints.2400v1 [dostęp 2018-05-02] (ang.).
  4. a b James Heathers, The GRIM test — a method for evaluating published research. [online], Medium, 23 maja 2016 [dostęp 2018-05-02].
  5. a b c Jordan Anaya, Tim van der Zee, Nick Brown, Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications, PeerJ Preprints, 14 czerwca 2017, DOI10.7287/peerj.preprints.3025v1 [dostęp 2018-05-02] (ang.).
  6. Tom Bartlett, Spoiled Science, „The Chronicle of Higher Education”, 17 marca 2017 [dostęp 2018-05-02].
  7. Andrew Gelman, Pizzagate, or the curious incident of the researcher in response to people pointing out 150 errors in four of his papers – Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 3 lutego 2017 [dostęp 2018-05-02] (ang.).
  8. Stephanie M. Lee, Sliced And Diced: The Inside Story Of How An Ivy League Food Scientist Turned Shoddy Data Into Viral Studies, „BuzzFeed” [dostęp 2018-05-02] (ang.).