p-hacking

Z Wikipedii, wolnej encyklopedii

p-hacking – błędy metodologiczne, jakich dopuszczają się badacze łamiący założenia przyjętego podejścia wnioskowania statystycznego, szczególnie w obszarze weryfikacji hipotez statystycznych, kierując się nadmierną motywacją uzyskania wyniku istotnego statystycznie, ze szkodą dla faktycznej wartości naukowej badań[1][2][3][4]. Polega to na łamaniu założeń używanych modeli statystycznych, w tym stosowaniu niezależnych prób losowych, oraz na popełnianiu błędów logicznych.

Przykłady błędów typu p-hacking to:

Nadużycie metodologiczne Prawidłowe podejście
Data fishing, HARKing – wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez Badania eksploracyjne powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez[5].
Cherry picking – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju należy przedstawić wyniki wszystkich wykonanych testów[6][7].
Problem porównań wielokrotnych – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić problem porównań wielokrotnych i zastosować np. poprawkę Holma-Bonferroniego[8].
Podglądanie wyników – obserwacja wyników w trakcie zbierania danych i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik analizy sekwencyjnej, pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju[9][10][11].

Jedną z metod przeciwdziałania takiemu zjawisku jest prerejestracja planów badawczych, dającą gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie replikacji badań[4][12]. Wicherts i inni zaproponowali listę kontrolną wyliczającą 34 błędy badawcze, których należy unikać[13].

Narzędzia metaanalityczne pomagające wykryć p-hacking to między innymi wykresy lejkowe[14][15] i krzywa p[16]. Wykryto dzięki nim pewną ilość nadużyć w badaniach, na przykład w obszarze psychologii społecznej[17][18]. Przeglądy publikacji wskazują, że p-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy[19]. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywania badań przyznało się 55% z około 2000 naukowców[20]. Przeglądy zademonstrowały występowanie problemów tego typu między innymi w biznesowych badaniach A/B w informatyce[21], w ekologii behawioralnej[22], i w quasi-eksperymentach ekonomii[23].

Przypisy[edytuj | edytuj kod]

  1. Joseph Simmons, Leif D. Nelson, Uri Simonsohn, Life After P-Hacking, „NA - Advances in Consumer Research Volume 41”, 2013 [dostęp 2017-01-15].
  2. S. Stanley Young, Alan Karr, Deming, data and observational studies, „Significance”, 8 (3), 2011, s. 116–120, DOI10.1111/j.1740-9713.2011.00506.x, ISSN 1740-9713 [dostęp 2017-01-15] (ang.).
  3. George Davey Smith, Shah Ebrahim, Data dredging, bias, or confounding, „British Medical Journal”, 325 (7378), 2002, s. 1437–1438, DOI10.1136/bmj.325.7378.1437, ISSN 0959-8138, PMID12493654 [dostęp 2017-01-15] (ang.).
  4. a b Wolfgang Forstmeier, Eric-Jan Wagenmakers, Timothy H. Parker, Detecting and avoiding likely false-positive findings – a practical guide, „Biological Reviews”, 92 (4), 2017, s. 1941–1968, DOI10.1111/brv.12315, ISSN 1469-185X [dostęp 2019-03-31] (ang.).
  5. Norbert L. Kerr, HARKing: Hypothesizing After the Results are Known, „Personality and Social Psychology Review”, 2 (3), 2016, s. 196–217, DOI10.1207/s15327957pspr0203_4 [dostęp 2017-01-31] (ang.).
  6. Regina Nuzzo, How scientists fool themselves – and how they can stop, „Nature”, 526 (7572), 2015, s. 182–185, DOI10.1038/526182a [dostęp 2017-01-31] (ang.).
  7. Andrew Gelman, Eric Loken, The Statistical Crisis in Science, „American Scientist”, 102 (6), DOI10.1511/2014.111.460 [dostęp 2017-01-31] (ang.).
  8. Olive Jean Dunn, Multiple Comparisons among Means, „Journal of the American Statistical Association”, 56 (293), 1961, s. 52–64, DOI10.1080/01621459.1961.10482090, ISSN 0162-1459 [dostęp 2017-01-31].
  9. Daniël Lakens, Ellen R.K. Evers, Sailing From the Seas of Chaos Into the Corridor of Stability, „Perspectives on Psychological Science”, 9 (3), 2014, s. 278–292, DOI10.1177/1745691614528520 [dostęp 2017-01-31] (ang.).
  10. P. Armitage, C.K. McPherson, B.C. Rowe, Repeated Significance Tests on Accumulating Data, „Journal of the Royal Statistical Society. Series A (General)”, 132 (2), 1969, s. 235–244, DOI10.2307/2343787, JSTOR2343787 [dostęp 2017-01-31].
  11. Daniël Lakens, Performing high-powered studies efficiently with sequential analyses, „European Journal of Social Psychology”, 44 (7), 2014, s. 701–710, DOI10.1002/ejsp.2023, ISSN 1099-0992 [dostęp 2017-01-31] (ang.).
  12. Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn, False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, Rochester, NY: Social Science Research Network, 23 maja 2011 [dostęp 2017-01-15].
  13. Jelte M. Wicherts i inni, Degrees of Freedom in Planning, Running, Analyzing, and Reporting Psychological Studies: A Checklist to Avoid p-Hacking, „Frontiers in Psychology”, 7, 2016, DOI10.3389/fpsyg.2016.01832, ISSN 1664-1078 [dostęp 2019-03-31] (ang.).
  14. Matthias Egger i inni, Bias in meta-analysis detected by a simple, graphical test, „British Medical Journal”, 315 (7109), 1997, s. 629–634, DOI10.1136/bmj.315.7109.629, ISSN 0959-8138, PMID9310563 [dostęp 2017-01-15] (ang.).
  15. Jonathan A.C Sterne, Matthias Egger, Funnel plots for detecting bias in meta-analysis, „Journal of Clinical Epidemiology”, 54 (10), s. 1046–1055, DOI10.1016/s0895-4356(01)00377-8.
  16. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller, Rochester, NY: Social Science Research Network, 10 lipca 2015 [dostęp 2017-01-15].
  17. Uri Simonsohn, Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone, Rochester, NY: Social Science Research Network, 29 stycznia 2013 [dostęp 2017-01-15].
  18. Joseph P. Simmons, Uri Simonsohn, Power Posing: P-Curving the Evidence, Rochester, NY: Social Science Research Network, 26 września 2016 [dostęp 2017-01-15].
  19. Megan L. Head i inni, The Extent and Consequences of P-Hacking in Science, „PLoS Biology”, 13 (3), 2015, DOI10.1371/journal.pbio.1002106, ISSN 1544-9173, PMID25768323, PMCIDPMC4359000 [dostęp 2017-01-15].
  20. Leslie K. John, George Loewenstein, Drazen Prelec, Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling, „Psychological Science”, 23 (5), 2012, s. 524–532, DOI10.1177/0956797611430953 [dostęp 2017-01-31] (ang.).
  21. Christophe van den Bulte i inni, p-Hacking and False Discovery in A/B Testing, Rochester, NY, 11 grudnia 2018 [dostęp 2019-03-31] (ang.).
  22. Michael D. Jennions i inni, Evidence that nonsignificant results are sometimes preferred: Reverse P-hacking or selective reporting?, „PLOS Biology”, 17 (1), 2019, e3000127, DOI10.1371/journal.pbio.3000127, ISSN 1545-7885, PMID30682013, PMCIDPMC6364929 [dostęp 2019-03-31] (ang.).
  23. Anthony G. Heyes, Nikolai Cook, Abel Brodeur, Methods Matter: P-Hacking and Causal Inference in Economics, „IZA Discussion Paper”, Rochester, NY, 17 września 2018 [dostęp 2019-03-31] (ang.).