P-hacking: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
harking, dr uzupełnienie
źródła
Linia 9: Linia 9:
|-
|-
|'''''Data fishing''''', '''''[[HARKing]]''''' (ang.) – Wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez.
|'''''Data fishing''''', '''''[[HARKing]]''''' (ang.) – Wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez.
|[[Badania eksploracyjne]] powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez.
|[[Badania eksploracyjne]] powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez<ref>{{Cytuj|autor=Norbert L. Kerr|tytuł=HARKing: Hypothesizing After the Results are Known|czasopismo=Personality and Social Psychology Review|data=2016-12-21|data dostępu=2017-01-31|wolumin=2|numer=3|s=196–217|doi=10.1207/s15327957pspr0203_4|url=http://journals.sagepub.com/doi/abs/10.1207/s15327957pspr0203_4|język=en}}</ref>.
|-
|-
|'''''Cherry picking''''' (ang.), '''[[złudzenie publikacyjne]]''' – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną.
|'''''Cherry picking''''' (ang.), '''[[złudzenie publikacyjne]]''' – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną.
|Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów.
|Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów<ref>{{Cytuj|autor=Regina Nuzzo|tytuł=How scientists fool themselves – and how they can stop|czasopismo=Nature|data=2015-10-08|data dostępu=2017-01-31|wolumin=526|numer=7572|s=182–185|doi=10.1038/526182a|url=http://www.nature.com/news/how-scientists-fool-themselves-and-how-they-can-stop-1.18517|język=en}}</ref><ref>{{Cytuj|autor=Andrew Gelman, Eric Loken|tytuł=The Statistical Crisis in Science|czasopismo=American Scientist|data dostępu=2017-01-31|wolumin=102|numer=6|doi=10.1511/2014.111.460|url=http://dx.doi.org/10.1511/2014.111.460|język=en-US}}</ref>.
|-
|-
|'''[[Problem porównań wielokrotnych]]''' – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki.
|'''[[Problem porównań wielokrotnych]]''' – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki.
|W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić [[problem porównań wielokrotnych]] i zastosować np. [[Poprawka Holma–Bonferroniego|poprawkę Holma–Bonferroniego]].
|W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić [[problem porównań wielokrotnych]] i zastosować np. [[Poprawka Holma–Bonferroniego|poprawkę Holma–Bonferroniego]]<ref>{{Cytuj|autor=Olive Jean Dunn|tytuł=Multiple Comparisons among Means|czasopismo=Journal of the American Statistical Association|data=1961-03-01|data dostępu=2017-01-31|issn=0162-1459|wolumin=56|numer=293|s=52–64|doi=10.1080/01621459.1961.10482090|url=http://amstat.tandfonline.com/doi/abs/10.1080/01621459.1961.10482090}}</ref>.
|-
|-
|'''Podglądanie wyników''' w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną.
|'''Podglądanie wyników''' w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną.
|Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik [[analiza sekwencyjna|analizy sekwencyjnej]], pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju.
|Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik [[analiza sekwencyjna|analizy sekwencyjnej]], pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju<ref>{{Cytuj|autor=Daniël Lakens, Ellen R. K. Evers|tytuł=Sailing From the Seas of Chaos Into the Corridor of Stability|czasopismo=Perspectives on Psychological Science|data=2014-05-06|data dostępu=2017-01-31|wolumin=9|numer=3|s=278–292|doi=10.1177/1745691614528520|url=http://journals.sagepub.com/doi/abs/10.1177/1745691614528520|język=en}}</ref><ref>{{Cytuj|autor=P. Armitage, C. K. McPherson, B. C. Rowe|tytuł=Repeated Significance Tests on Accumulating Data|czasopismo=Journal of the Royal Statistical Society. Series A (General)|data=1969-01-01|data dostępu=2017-01-31|wolumin=132|numer=2|s=235–244|doi=10.2307/2343787|url=http://www.jstor.org/stable/2343787}}</ref><ref>{{Cytuj|autor=Daniël Lakens|tytuł=Performing high-powered studies efficiently with sequential analyses|czasopismo=European Journal of Social Psychology|data=2014-12-01|data dostępu=2017-01-31|issn=1099-0992|wolumin=44|numer=7|s=701–710|doi=10.1002/ejsp.2023|url=http://onlinelibrary.wiley.com/doi/10.1002/ejsp.2023/abstract|język=en}}</ref>.
|}
|}
Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych dającej notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie [[Replikacja (metoda naukowa)|replikacji badań]]<ref>{{Cytuj|autor=Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn|tytuł=False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant|data=2011-05-23|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=1850704}}</ref>. Narzędzia pozwalające wykryć P-hacking to takie metody [[Metaanaliza|metaanalityczne]] jak m.in. ''funnel plot''<ref>{{Cytuj|autor=Matthias Egger, George Davey Smith, Martin Schneider, Christoph Minder|tytuł=Bias in meta-analysis detected by a simple, graphical test|czasopismo=BMJ|data=1997-09-13|data dostępu=2017-01-15|issn=0959-8138|wolumin=315|numer=7109|s=629–634|doi=10.1136/bmj.315.7109.629|pmid=9310563|url=http://www.bmj.com/content/315/7109/629|język=en}}</ref><ref>{{Cytuj|autor=Jonathan A.C Sterne, Matthias Egger|tytuł=Funnel plots for detecting bias in meta-analysis|czasopismo=Journal of Clinical Epidemiology|wolumin=54|numer=10|s=1046–1055|doi=10.1016/s0895-4356(01)00377-8|url=http://dx.doi.org/10.1016/S0895-4356(01)00377-8}}</ref> czy [http://www.p-curve.com/ P-curve]<ref>{{Cytuj|autor=Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson|tytuł=Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller|data=2015-07-10|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2649230}}</ref>. Wykryto dzięki nim pewną ilosć nadużyć w badaniach, np. w obszarze [[Psychologia społeczna|psychologii społecznej]]<ref>{{Cytuj|autor=Uri Simonsohn|tytuł=Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone|data=2013-01-29|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2114571}}</ref><ref>{{Cytuj|autor=Joseph P. Simmons, Uri Simonsohn|tytuł=Power Posing: P-Curving the Evidence|data=2016-09-26|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2791272}}</ref>.
Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych dającej notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie [[Replikacja (metoda naukowa)|replikacji badań]]<ref>{{Cytuj|autor=Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn|tytuł=False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant|data=2011-05-23|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=1850704}}</ref>. Narzędzia pozwalające wykryć P-hacking to takie metody [[Metaanaliza|metaanalityczne]] jak m.in. ''funnel plot''<ref>{{Cytuj|autor=Matthias Egger, George Davey Smith, Martin Schneider, Christoph Minder|tytuł=Bias in meta-analysis detected by a simple, graphical test|czasopismo=BMJ|data=1997-09-13|data dostępu=2017-01-15|issn=0959-8138|wolumin=315|numer=7109|s=629–634|doi=10.1136/bmj.315.7109.629|pmid=9310563|url=http://www.bmj.com/content/315/7109/629|język=en}}</ref><ref>{{Cytuj|autor=Jonathan A.C Sterne, Matthias Egger|tytuł=Funnel plots for detecting bias in meta-analysis|czasopismo=Journal of Clinical Epidemiology|wolumin=54|numer=10|s=1046–1055|doi=10.1016/s0895-4356(01)00377-8|url=http://dx.doi.org/10.1016/S0895-4356(01)00377-8}}</ref> czy [http://www.p-curve.com/ P-curve]<ref>{{Cytuj|autor=Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson|tytuł=Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller|data=2015-07-10|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2649230}}</ref>. Wykryto dzięki nim pewną ilość nadużyć w badaniach, np. w obszarze [[Psychologia społeczna|psychologii społecznej]]<ref>{{Cytuj|autor=Uri Simonsohn|tytuł=Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone|data=2013-01-29|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2114571}}</ref><ref>{{Cytuj|autor=Joseph P. Simmons, Uri Simonsohn|tytuł=Power Posing: P-Curving the Evidence|data=2016-09-26|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2791272}}</ref>.


Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy<ref>{{Cytuj|autor=Megan L. Head, Luke Holman, Rob Lanfear, Andrew T. Kahn, Michael D. Jennions|tytuł=The Extent and Consequences of P-Hacking in Science|czasopismo=PLoS Biology|data=2015-03-13|data dostępu=2017-01-15|issn=1544-9173|wolumin=13|numer=3|doi=10.1371/journal.pbio.1002106|pmid=25768323|pmc=4359000|url=http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4359000/}}</ref>.
Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy<ref>{{Cytuj|autor=Megan L. Head, Luke Holman, Rob Lanfear, Andrew T. Kahn, Michael D. Jennions|tytuł=The Extent and Consequences of P-Hacking in Science|czasopismo=PLoS Biology|data=2015-03-13|data dostępu=2017-01-15|issn=1544-9173|wolumin=13|numer=3|doi=10.1371/journal.pbio.1002106|pmid=25768323|pmc=4359000|url=http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4359000/}}</ref>. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywaniu badań przyznało się 55% naukowców<ref>{{Cytuj|autor=Leslie K. John, George Loewenstein, Drazen Prelec|tytuł=Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling|czasopismo=Psychological Science|data=2012-04-16|data dostępu=2017-01-31|wolumin=23|numer=5|s=524–532|doi=10.1177/0956797611430953|url=http://journals.sagepub.com/doi/abs/10.1177/0956797611430953|język=en}}</ref>.


{{Przypisy}}
{{Przypisy}}

Wersja z 22:38, 31 sty 2017

P-hacking, p-hacking, data dredging (ang. nadużywanie danych), QRP (ang. questionable research practices – wątpliwe praktyki badawcze) – to błędy metodologiczne, jakich dopuszczają się badacze łamiący założenia przyjętego podejścia wnioskowania statystycznego, szczególnie w obszarze weryfikacji hipotez statystycznych, kierując się na przykład nadmierną motywacją uzyskania wyniku istotnego statystycznie, ze szkodą dla faktycznej wartości naukowej badań[1][2][3].

P-hacking polega na łamaniu założeń używanych modeli statystycznych, takich jak stosowanie niezależnych prób losowych, oraz na popełnianiu błędów logicznych.

Przykłady błędów typu P-hacking to:

Nadużycie metodologiczne Prawidłowe podejście
Data fishing, HARKing (ang.) – Wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez. Badania eksploracyjne powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez[4].
Cherry picking (ang.), złudzenie publikacyjne – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną. Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów[5][6].
Problem porównań wielokrotnych – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki. W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić problem porównań wielokrotnych i zastosować np. poprawkę Holma–Bonferroniego[7].
Podglądanie wyników w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną. Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik analizy sekwencyjnej, pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju[8][9][10].

Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych dającej notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie replikacji badań[11]. Narzędzia pozwalające wykryć P-hacking to takie metody metaanalityczne jak m.in. funnel plot[12][13] czy P-curve[14]. Wykryto dzięki nim pewną ilość nadużyć w badaniach, np. w obszarze psychologii społecznej[15][16].

Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy[17]. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywaniu badań przyznało się 55% naukowców[18].

  1. Simmons i inni, Life After P-Hacking, „NA - Advances in Consumer Research Volume 41”, 2013 [dostęp 2017-01-15].
  2. S. Stanley Young, Alan Karr, Deming, data and observational studies, „Significance”, 8 (3), 2011, s. 116–120, DOI10.1111/j.1740-9713.2011.00506.x, ISSN 1740-9713 [dostęp 2017-01-15] (ang.).
  3. George Davey Smith, Shah Ebrahim, Data dredging, bias, or confounding, „British Medical Journal”, 325 (7378), 2002, s. 1437–1438, DOI10.1136/bmj.325.7378.1437, ISSN 0959-8138, PMID12493654 [dostęp 2017-01-15] (ang.).
  4. Norbert L. Kerr, HARKing: Hypothesizing After the Results are Known, „Personality and Social Psychology Review”, 2 (3), 2016, s. 196–217, DOI10.1207/s15327957pspr0203_4 [dostęp 2017-01-31] (ang.).
  5. Regina Nuzzo, How scientists fool themselves – and how they can stop, „Nature”, 526 (7572), 2015, s. 182–185, DOI10.1038/526182a [dostęp 2017-01-31] (ang.).
  6. Andrew Gelman, Eric Loken, The Statistical Crisis in Science, „American Scientist”, 102 (6), DOI10.1511/2014.111.460 [dostęp 2017-01-31] (ang.).
  7. Olive Jean Dunn, Multiple Comparisons among Means, „Journal of the American Statistical Association”, 56 (293), 1961, s. 52–64, DOI10.1080/01621459.1961.10482090, ISSN 0162-1459 [dostęp 2017-01-31].
  8. Daniël Lakens, Ellen R.K. Evers, Sailing From the Seas of Chaos Into the Corridor of Stability, „Perspectives on Psychological Science”, 9 (3), 2014, s. 278–292, DOI10.1177/1745691614528520 [dostęp 2017-01-31] (ang.).
  9. P. Armitage, C.K. McPherson, B.C. Rowe, Repeated Significance Tests on Accumulating Data, „Journal of the Royal Statistical Society. Series A (General)”, 132 (2), 1969, s. 235–244, DOI10.2307/2343787, JSTOR2343787 [dostęp 2017-01-31].
  10. Daniël Lakens, Performing high-powered studies efficiently with sequential analyses, „European Journal of Social Psychology”, 44 (7), 2014, s. 701–710, DOI10.1002/ejsp.2023, ISSN 1099-0992 [dostęp 2017-01-31] (ang.).
  11. Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn, False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, Rochester, NY: Social Science Research Network, 23 maja 2011 [dostęp 2017-01-15].
  12. Matthias Egger i inni, Bias in meta-analysis detected by a simple, graphical test, „British Medical Journal”, 315 (7109), 1997, s. 629–634, DOI10.1136/bmj.315.7109.629, ISSN 0959-8138, PMID9310563 [dostęp 2017-01-15] (ang.).
  13. Jonathan A.C Sterne, Matthias Egger, Funnel plots for detecting bias in meta-analysis, „Journal of Clinical Epidemiology”, 54 (10), s. 1046–1055, DOI10.1016/s0895-4356(01)00377-8.
  14. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller, Rochester, NY: Social Science Research Network, 10 lipca 2015 [dostęp 2017-01-15].
  15. Uri Simonsohn, Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone, Rochester, NY: Social Science Research Network, 29 stycznia 2013 [dostęp 2017-01-15].
  16. Joseph P. Simmons, Uri Simonsohn, Power Posing: P-Curving the Evidence, Rochester, NY: Social Science Research Network, 26 września 2016 [dostęp 2017-01-15].
  17. Megan L. Head i inni, The Extent and Consequences of P-Hacking in Science, „PLoS Biology”, 13 (3), 2015, DOI10.1371/journal.pbio.1002106, ISSN 1544-9173, PMID25768323, PMCIDPMC4359000 [dostęp 2017-01-15].
  18. Leslie K. John, George Loewenstein, Drazen Prelec, Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling, „Psychological Science”, 23 (5), 2012, s. 524–532, DOI10.1177/0956797611430953 [dostęp 2017-01-31] (ang.).