P-hacking: Różnice pomiędzy wersjami
[wersja przejrzana] | [wersja przejrzana] |
harking, dr uzupełnienie |
źródła |
||
Linia 9: | Linia 9: | ||
|- |
|- |
||
|'''''Data fishing''''', '''''[[HARKing]]''''' (ang.) – Wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez. |
|'''''Data fishing''''', '''''[[HARKing]]''''' (ang.) – Wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez. |
||
|[[Badania eksploracyjne]] powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez. |
|[[Badania eksploracyjne]] powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez<ref>{{Cytuj|autor=Norbert L. Kerr|tytuł=HARKing: Hypothesizing After the Results are Known|czasopismo=Personality and Social Psychology Review|data=2016-12-21|data dostępu=2017-01-31|wolumin=2|numer=3|s=196–217|doi=10.1207/s15327957pspr0203_4|url=http://journals.sagepub.com/doi/abs/10.1207/s15327957pspr0203_4|język=en}}</ref>. |
||
|- |
|- |
||
|'''''Cherry picking''''' (ang.), '''[[złudzenie publikacyjne]]''' – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną. |
|'''''Cherry picking''''' (ang.), '''[[złudzenie publikacyjne]]''' – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną. |
||
|Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów. |
|Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów<ref>{{Cytuj|autor=Regina Nuzzo|tytuł=How scientists fool themselves – and how they can stop|czasopismo=Nature|data=2015-10-08|data dostępu=2017-01-31|wolumin=526|numer=7572|s=182–185|doi=10.1038/526182a|url=http://www.nature.com/news/how-scientists-fool-themselves-and-how-they-can-stop-1.18517|język=en}}</ref><ref>{{Cytuj|autor=Andrew Gelman, Eric Loken|tytuł=The Statistical Crisis in Science|czasopismo=American Scientist|data dostępu=2017-01-31|wolumin=102|numer=6|doi=10.1511/2014.111.460|url=http://dx.doi.org/10.1511/2014.111.460|język=en-US}}</ref>. |
||
|- |
|- |
||
|'''[[Problem porównań wielokrotnych]]''' – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki. |
|'''[[Problem porównań wielokrotnych]]''' – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki. |
||
|W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić [[problem porównań wielokrotnych]] i zastosować np. [[Poprawka Holma–Bonferroniego|poprawkę Holma–Bonferroniego]]. |
|W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić [[problem porównań wielokrotnych]] i zastosować np. [[Poprawka Holma–Bonferroniego|poprawkę Holma–Bonferroniego]]<ref>{{Cytuj|autor=Olive Jean Dunn|tytuł=Multiple Comparisons among Means|czasopismo=Journal of the American Statistical Association|data=1961-03-01|data dostępu=2017-01-31|issn=0162-1459|wolumin=56|numer=293|s=52–64|doi=10.1080/01621459.1961.10482090|url=http://amstat.tandfonline.com/doi/abs/10.1080/01621459.1961.10482090}}</ref>. |
||
|- |
|- |
||
|'''Podglądanie wyników''' w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną. |
|'''Podglądanie wyników''' w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną. |
||
|Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik [[analiza sekwencyjna|analizy sekwencyjnej]], pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju. |
|Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik [[analiza sekwencyjna|analizy sekwencyjnej]], pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju<ref>{{Cytuj|autor=Daniël Lakens, Ellen R. K. Evers|tytuł=Sailing From the Seas of Chaos Into the Corridor of Stability|czasopismo=Perspectives on Psychological Science|data=2014-05-06|data dostępu=2017-01-31|wolumin=9|numer=3|s=278–292|doi=10.1177/1745691614528520|url=http://journals.sagepub.com/doi/abs/10.1177/1745691614528520|język=en}}</ref><ref>{{Cytuj|autor=P. Armitage, C. K. McPherson, B. C. Rowe|tytuł=Repeated Significance Tests on Accumulating Data|czasopismo=Journal of the Royal Statistical Society. Series A (General)|data=1969-01-01|data dostępu=2017-01-31|wolumin=132|numer=2|s=235–244|doi=10.2307/2343787|url=http://www.jstor.org/stable/2343787}}</ref><ref>{{Cytuj|autor=Daniël Lakens|tytuł=Performing high-powered studies efficiently with sequential analyses|czasopismo=European Journal of Social Psychology|data=2014-12-01|data dostępu=2017-01-31|issn=1099-0992|wolumin=44|numer=7|s=701–710|doi=10.1002/ejsp.2023|url=http://onlinelibrary.wiley.com/doi/10.1002/ejsp.2023/abstract|język=en}}</ref>. |
||
|} |
|} |
||
Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych dającej notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie [[Replikacja (metoda naukowa)|replikacji badań]]<ref>{{Cytuj|autor=Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn|tytuł=False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant|data=2011-05-23|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=1850704}}</ref>. Narzędzia pozwalające wykryć P-hacking to takie metody [[Metaanaliza|metaanalityczne]] jak m.in. ''funnel plot''<ref>{{Cytuj|autor=Matthias Egger, George Davey Smith, Martin Schneider, Christoph Minder|tytuł=Bias in meta-analysis detected by a simple, graphical test|czasopismo=BMJ|data=1997-09-13|data dostępu=2017-01-15|issn=0959-8138|wolumin=315|numer=7109|s=629–634|doi=10.1136/bmj.315.7109.629|pmid=9310563|url=http://www.bmj.com/content/315/7109/629|język=en}}</ref><ref>{{Cytuj|autor=Jonathan A.C Sterne, Matthias Egger|tytuł=Funnel plots for detecting bias in meta-analysis|czasopismo=Journal of Clinical Epidemiology|wolumin=54|numer=10|s=1046–1055|doi=10.1016/s0895-4356(01)00377-8|url=http://dx.doi.org/10.1016/S0895-4356(01)00377-8}}</ref> czy [http://www.p-curve.com/ P-curve]<ref>{{Cytuj|autor=Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson|tytuł=Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller|data=2015-07-10|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2649230}}</ref>. Wykryto dzięki nim pewną |
Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych dającej notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie [[Replikacja (metoda naukowa)|replikacji badań]]<ref>{{Cytuj|autor=Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn|tytuł=False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant|data=2011-05-23|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=1850704}}</ref>. Narzędzia pozwalające wykryć P-hacking to takie metody [[Metaanaliza|metaanalityczne]] jak m.in. ''funnel plot''<ref>{{Cytuj|autor=Matthias Egger, George Davey Smith, Martin Schneider, Christoph Minder|tytuł=Bias in meta-analysis detected by a simple, graphical test|czasopismo=BMJ|data=1997-09-13|data dostępu=2017-01-15|issn=0959-8138|wolumin=315|numer=7109|s=629–634|doi=10.1136/bmj.315.7109.629|pmid=9310563|url=http://www.bmj.com/content/315/7109/629|język=en}}</ref><ref>{{Cytuj|autor=Jonathan A.C Sterne, Matthias Egger|tytuł=Funnel plots for detecting bias in meta-analysis|czasopismo=Journal of Clinical Epidemiology|wolumin=54|numer=10|s=1046–1055|doi=10.1016/s0895-4356(01)00377-8|url=http://dx.doi.org/10.1016/S0895-4356(01)00377-8}}</ref> czy [http://www.p-curve.com/ P-curve]<ref>{{Cytuj|autor=Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson|tytuł=Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller|data=2015-07-10|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2649230}}</ref>. Wykryto dzięki nim pewną ilość nadużyć w badaniach, np. w obszarze [[Psychologia społeczna|psychologii społecznej]]<ref>{{Cytuj|autor=Uri Simonsohn|tytuł=Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone|data=2013-01-29|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2114571}}</ref><ref>{{Cytuj|autor=Joseph P. Simmons, Uri Simonsohn|tytuł=Power Posing: P-Curving the Evidence|data=2016-09-26|data dostępu=2017-01-15|miejsce=Rochester, NY|wydawca=Social Science Research Network|url=https://papers.ssrn.com/abstract=2791272}}</ref>. |
||
Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy<ref>{{Cytuj|autor=Megan L. Head, Luke Holman, Rob Lanfear, Andrew T. Kahn, Michael D. Jennions|tytuł=The Extent and Consequences of P-Hacking in Science|czasopismo=PLoS Biology|data=2015-03-13|data dostępu=2017-01-15|issn=1544-9173|wolumin=13|numer=3|doi=10.1371/journal.pbio.1002106|pmid=25768323|pmc=4359000|url=http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4359000/}}</ref>. |
Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy<ref>{{Cytuj|autor=Megan L. Head, Luke Holman, Rob Lanfear, Andrew T. Kahn, Michael D. Jennions|tytuł=The Extent and Consequences of P-Hacking in Science|czasopismo=PLoS Biology|data=2015-03-13|data dostępu=2017-01-15|issn=1544-9173|wolumin=13|numer=3|doi=10.1371/journal.pbio.1002106|pmid=25768323|pmc=4359000|url=http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4359000/}}</ref>. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywaniu badań przyznało się 55% naukowców<ref>{{Cytuj|autor=Leslie K. John, George Loewenstein, Drazen Prelec|tytuł=Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling|czasopismo=Psychological Science|data=2012-04-16|data dostępu=2017-01-31|wolumin=23|numer=5|s=524–532|doi=10.1177/0956797611430953|url=http://journals.sagepub.com/doi/abs/10.1177/0956797611430953|język=en}}</ref>. |
||
{{Przypisy}} |
{{Przypisy}} |
Wersja z 22:38, 31 sty 2017
P-hacking, p-hacking, data dredging (ang. nadużywanie danych), QRP (ang. questionable research practices – wątpliwe praktyki badawcze) – to błędy metodologiczne, jakich dopuszczają się badacze łamiący założenia przyjętego podejścia wnioskowania statystycznego, szczególnie w obszarze weryfikacji hipotez statystycznych, kierując się na przykład nadmierną motywacją uzyskania wyniku istotnego statystycznie, ze szkodą dla faktycznej wartości naukowej badań[1][2][3].
P-hacking polega na łamaniu założeń używanych modeli statystycznych, takich jak stosowanie niezależnych prób losowych, oraz na popełnianiu błędów logicznych.
Przykłady błędów typu P-hacking to:
Nadużycie metodologiczne | Prawidłowe podejście |
---|---|
Data fishing, HARKing (ang.) – Wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez. | Badania eksploracyjne powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez[4]. |
Cherry picking (ang.), złudzenie publikacyjne – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną. | Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów[5][6]. |
Problem porównań wielokrotnych – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki. | W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić problem porównań wielokrotnych i zastosować np. poprawkę Holma–Bonferroniego[7]. |
Podglądanie wyników w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną. | Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik analizy sekwencyjnej, pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju[8][9][10]. |
Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych dającej notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie replikacji badań[11]. Narzędzia pozwalające wykryć P-hacking to takie metody metaanalityczne jak m.in. funnel plot[12][13] czy P-curve[14]. Wykryto dzięki nim pewną ilość nadużyć w badaniach, np. w obszarze psychologii społecznej[15][16].
Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy[17]. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywaniu badań przyznało się 55% naukowców[18].
- ↑ Simmons i inni, Life After P-Hacking, „NA - Advances in Consumer Research Volume 41”, 2013 [dostęp 2017-01-15] .
- ↑ S. Stanley Young , Alan Karr , Deming, data and observational studies, „Significance”, 8 (3), 2011, s. 116–120, DOI: 10.1111/j.1740-9713.2011.00506.x, ISSN 1740-9713 [dostęp 2017-01-15] (ang.).
- ↑ George Davey Smith , Shah Ebrahim , Data dredging, bias, or confounding, „British Medical Journal”, 325 (7378), 2002, s. 1437–1438, DOI: 10.1136/bmj.325.7378.1437, ISSN 0959-8138, PMID: 12493654 [dostęp 2017-01-15] (ang.).
- ↑ Norbert L. Kerr , HARKing: Hypothesizing After the Results are Known, „Personality and Social Psychology Review”, 2 (3), 2016, s. 196–217, DOI: 10.1207/s15327957pspr0203_4 [dostęp 2017-01-31] (ang.).
- ↑ Regina Nuzzo , How scientists fool themselves – and how they can stop, „Nature”, 526 (7572), 2015, s. 182–185, DOI: 10.1038/526182a [dostęp 2017-01-31] (ang.).
- ↑ Andrew Gelman , Eric Loken , The Statistical Crisis in Science, „American Scientist”, 102 (6), DOI: 10.1511/2014.111.460 [dostęp 2017-01-31] (ang.).
- ↑ Olive Jean Dunn , Multiple Comparisons among Means, „Journal of the American Statistical Association”, 56 (293), 1961, s. 52–64, DOI: 10.1080/01621459.1961.10482090, ISSN 0162-1459 [dostęp 2017-01-31] .
- ↑ Daniël Lakens , Ellen R.K. Evers , Sailing From the Seas of Chaos Into the Corridor of Stability, „Perspectives on Psychological Science”, 9 (3), 2014, s. 278–292, DOI: 10.1177/1745691614528520 [dostęp 2017-01-31] (ang.).
- ↑ P. Armitage , C.K. McPherson , B.C. Rowe , Repeated Significance Tests on Accumulating Data, „Journal of the Royal Statistical Society. Series A (General)”, 132 (2), 1969, s. 235–244, DOI: 10.2307/2343787, JSTOR: 2343787 [dostęp 2017-01-31] .
- ↑ Daniël Lakens , Performing high-powered studies efficiently with sequential analyses, „European Journal of Social Psychology”, 44 (7), 2014, s. 701–710, DOI: 10.1002/ejsp.2023, ISSN 1099-0992 [dostęp 2017-01-31] (ang.).
- ↑ Joseph P. Simmons , Leif D. Nelson , Uri Simonsohn , False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, Rochester, NY: Social Science Research Network, 23 maja 2011 [dostęp 2017-01-15] .
- ↑ Matthias Egger i inni, Bias in meta-analysis detected by a simple, graphical test, „British Medical Journal”, 315 (7109), 1997, s. 629–634, DOI: 10.1136/bmj.315.7109.629, ISSN 0959-8138, PMID: 9310563 [dostęp 2017-01-15] (ang.).
- ↑ Jonathan A.C Sterne , Matthias Egger , Funnel plots for detecting bias in meta-analysis, „Journal of Clinical Epidemiology”, 54 (10), s. 1046–1055, DOI: 10.1016/s0895-4356(01)00377-8 .
- ↑ Uri Simonsohn , Joseph P. Simmons , Leif D. Nelson , Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller, Rochester, NY: Social Science Research Network, 10 lipca 2015 [dostęp 2017-01-15] .
- ↑ Uri Simonsohn , Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone, Rochester, NY: Social Science Research Network, 29 stycznia 2013 [dostęp 2017-01-15] .
- ↑ Joseph P. Simmons , Uri Simonsohn , Power Posing: P-Curving the Evidence, Rochester, NY: Social Science Research Network, 26 września 2016 [dostęp 2017-01-15] .
- ↑ Megan L. Head i inni, The Extent and Consequences of P-Hacking in Science, „PLoS Biology”, 13 (3), 2015, DOI: 10.1371/journal.pbio.1002106, ISSN 1544-9173, PMID: 25768323, PMCID: PMC4359000 [dostęp 2017-01-15] .
- ↑ Leslie K. John , George Loewenstein , Drazen Prelec , Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling, „Psychological Science”, 23 (5), 2012, s. 524–532, DOI: 10.1177/0956797611430953 [dostęp 2017-01-31] (ang.).