Replikacja (metoda naukowa)

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Replikacja to pojęcie z zakresu metodologii nauk oraz statystyki opisujące powtarzanie badań w celu zweryfikowania ich wyników jako część ustawicznego procesu autokorekcyjnego w metodzie naukowej. Słowami filozofa nauki Karla Poppera „niepowtarzalne, jednostkowe wydarzenia nie mają dla nauki żadnego znaczenia”[1]. Statystyk Ronald Fisher dodaje: „możemy uznać, że zjawisko jest udowodnione eksperymentalnie wówczas, gdy wiemy, jak przeprowadzić eksperyment, który rzadko zawiedzie w wykazaniu istotnych statystycznie rezultatów.”[2]

Przekonująca replikacja powinna w miarę możliwości maksymalnie wiernie odtwarzać warunki i narzędzia, jakie zastosowano w oryginalnym badaniu. Dodatkowo, powinna cechować się wysoką mocą statystyczną i transparentnością. W przypadku gdy projekt pierwotnego badania jest uznany za wadliwy, można również przeprowadzić replikację konceptualną, rozszerzającą oryginalny cel i wyniki, przy użyciu lepszych narzędzi[3][4].

W standardowej procedurze weryfikacji hipotez statystycznych w podejściu częstościowym, z samej definicji progu istotności 5% wynika, że 5% wyników przekracza go przez przypadek. W praktyce założenia modeli statystycznych i metodologii badań mogą nie być dokładnie przestrzegane, w związku z czym liczba „fałszywych alarmów” może być wyższa, niż sugeruje ta nominalna wartość. Z tego powodu wartość dowodowa niezreplikowanych badań jest silnie ograniczona.

Narzędziem, które służy agregacji danych i wyników ze zbioru replikacji jest metaanaliza. Pozwala ona na zbiorcze rozpatrzenie wartości dowodowej badań, oraz wykrycie tendencyjności publikacji[5].

Kryzys replikacji[edytuj]

Presja instytucjonalna wywierana na badaczy, gdy ocena ich pracy uzależniona jest od powierzchownych kryteriów, takich jak ilości publikacji i istotnych statytycznie wyników, zachęca naukowców do nadużywania metod weryfikacji hipotez statystycznych. Obserwuje się, że wskutek niezrozumienia lub celowego naruszania zasad metodologii, badacze i wydawcy czasopism naukowych przywiązywali w praktyce nadmierną wagę do uzyskiwania wyników istotnych statystycznie, niezależnie od tego czy są one prawdziwe, czy nie[6]. Badania które przekroczyły ten próg są publikowane kilkukrotnie częściej[7]. Parafrazując prawo Goodharta, ocena pracy naukowej skupiona na prostych wskaźnikach, takich jak istotność statystyczna, sprawia że zaczynają być one traktowane jak cel sam w sobie, i podważa wiarygodność i rzetelność nauki[8]. Jak udowodnił zespół statystyków, przy pomocy zbioru różnego rodzaju drobnych nadużyć metodologicznych, można uzyskać istotność statystyczną na nominalnym poziomie 5%, przy realnym prawdopodobieństwu błędu I rodzaju ponad 50%[9].

W latach 2010-tych opublikowano szereg badań i raportów, sugerujących że zjawisko to ma poważną skalę, i wymaga ściślejszego traktowania. W ankiecie obejmującej ok. 1500 naukowców z różnych dziedzin, 90% respondentów stwierdziło, że nauki są dotknięte kryzysem replikacji, w którym większość wyników nie jest ponownie testowana, a jeśli do tego dochodzi, rezultatów często nie udaje się powtórzyć[10]. Przykładowo, zależnie od dziedziny, większość naukowców deklarowała, że przynajmniej raz nie powiodła im się replikacja cudzej pracy, w:

  • chemii: 90%,
  • biologii: 80%,
  • fizyce i inżynierii: 70%,
  • medycynie: 70%,
  • naukach o Ziemi i środowisku: 60%.

W meta-analizie ankiet z 2009 r., ok. 14% badaczy przyznało, że osobiście dopuściło się dowolnych drobnych nadużyć metodologicznych w karierze, a 72% wie, że dopuścił się ich inny znajomy badacz. Do dosłownego fabrykowania danych i wyników przyznało się 2% respondentów[11].

Pod wpływem tych dyskusji, zespoły naukowców z różnych dziedzin psychologii, koordynowane w ramach Open Science Collaboration, przeprowadziły i opublikowały w 2015 r. wyniki replikacji 100 badań psychologicznych opublikowanych w 2008 r. w prestiżowych czasopismach naukowych. Udało się im powtórzyć oryginalne wnioski w 36% przypadków, uzyskując z reguły mniejsze oszacowania wielkości efektu[12]. Grupa ta rekomenduje szereg środków zaradczych w obliczu debatowanego kryzysu, między innymi prerejestrację planów badań, udostępnianie pełnych danych o narzędziach, procedurach i wynikach, dbałość o wystarczającą moc statystyczną, i dalsze, częstsze wykonywanie i publikowanie replikacji[13][14]. Zwraca się uwagę, że replikacje były niedoceniane i publikowane bardzo rzadko (w jednym z przeglądów w psychologii, stanowiły 1% publikacji[15]), w związku z czym proponuje się również systemy premiowania za wykonywanie takich badań[16].

Statystycy, którzy wspólnie z Ronaldem Fisherem stworzyli fundamenty podejścia częstościowego weryfikacji hipotez statystycznych, Neyman i Pearson, zaznaczyli już w 1928 r.: „metody statystyczne powinny być używane z rozwagą i zrozumieniem, a nie jako narzędzia które same w sobie udzielają ostatecznych odpowiedzi[17]”.

Replikacja a moc statystyczna[edytuj]

Nawet przy mocy 80%, szansa na trzy udane replikacje badań istniejącego zjawiska to jedynie 51%
Nawet przy mocy 80%, szansa na trzy udane replikacje badań istniejącego zjawiska to jedynie 51%

Efektywności replikacji i procesu naukowego może przeciwdziałać zaniedbywanie mocy statystycznej badań (w szczególności, stosowanie zbyt małych prób badawczych)[18]. Nawet przy stosowaniu mocy na rekomendowanym poziomie 80%, prawdopodobieństwo że na trzy próby powtórzenia badania, każde się powiedzie, wynosi zaledwie 51%. W praktyce częściej spotykane są jednak niższe wartości mocy testów. W związku z tym, naturalne jest że nawet w przypadku badania rzeczywiście istniejących zjawisk, w literaturze występować będą nieudane replikacje. Według statystyków, ocena wartości dowodowej zbioru badań nie powinna w związku z tym polegać na prostym „liczeniu głosów” badań za i przeciwko hipotezie – do wyciągania ogólnych wniosków z wielu badań służą techniki metaanalityczne[19].

Przypisy

  1. Karl Popper, Logika odkrycia naukowego, Wydawnictwo Naukowe PWN, 1972, rozdział 4, §22, s. 74, ISBN 830113870X, OCLC 749339838.
  2. Fisher, R. A., The design of experiments., Hafner Press, 1974, s. 14, ISBN 9780028446905, OCLC 471778573.
  3. Mark J. Brandt i inni, The Replication Recipe: What makes for a convincing replication?, „Journal of Experimental Social Psychology”, 50, 2014, s. 217–224, DOI10.1016/j.jesp.2013.10.005 [dostęp 2017-01-09].
  4. D. G. Bonett, Replication-Extension Studies, „Current Directions in Psychological Science”, 6, 2012, s. 409–412, DOI10.1177/0963721412459512 [dostęp 2017-01-09] (ang.).
  5. Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Daniël Lakens, Joe Hilgard, Janneke Staaks, On the reproducibility of meta-analyses: six practical recommendations, „BMC Psychology”, 4, 2016, s. 24, DOI10.1186/s40359-016-0126-3, ISSN 2050-7283, PMID27241618, PMCIDPMC4886411 [dostęp 2017-01-08].
  6. Gelman, Andrew. "Statistics and the crisis of scientific replication." Significance 12.3 (2015): 39-41.
  7. K. Dickersin i inni, Publication bias and clinical trials, „Controlled Clinical Trials”, 4, 1987, s. 343–353, DOI10.1016/0197-2456(87)90155-3 [dostęp 2017-01-08].
  8. Mario Biagioli, Watch out for cheats in citation game, „Nature”, 7611, 2016, s. 201–201, DOI10.1038/535201a [dostęp 2017-01-08].
  9. J. P. Simmons, L. D. Nelson, U. Simonsohn, False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, „Psychological Science”, 11, 2011, s. 1359–1366, DOI10.1177/0956797611417632 [dostęp 2017-01-08] (ang.).
  10. Monya Baker, 1,500 scientists lift the lid on reproducibility, „Nature”, 7604, 2016, s. 452–454, DOI10.1038/533452a [dostęp 2017-01-08].
  11. Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Daniele Fanelli, How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data, „PLOS ONE”, 5, 2009, e5738, DOI10.1371/journal.pone.0005738, ISSN 1932-6203, PMID19478950, PMCIDPMC2685008 [dostęp 2017-01-08].
  12. Open Science Collaboration, Estimating the reproducibility of psychological science, „Science”, 6251, 2015, aac4716, DOI10.1126/science.aac4716, ISSN 0036-8075, PMID26315443 [dostęp 2017-01-08] (ang.).
  13. Aarts, OSF | Maximizing the Reproducibility of Your Research, „Open Science Framework”, osf.io, 2014 [dostęp 2017-01-08].
  14. Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać B. A. Nosek i inni, Promoting an open research culture, „Science”, 6242, 2015, s. 1422–1425, DOI10.1126/science.aab2374, ISSN 0036-8075, PMID26113702, PMCIDPMC4550299 [dostęp 2017-01-08] (ang.).
  15. M. C. Makel, J. A. Plucker, B. Hegarty, Replications in Psychology Research: How Often Do They Really Occur?, „Perspectives on Psychological Science”, 6, 2012, s. 537–542, DOI10.1177/1745691612460688 [dostęp 2017-01-09] (ang.).
  16. S. L. Koole, D. Lakens, Rewarding Replications: A Sure and Simple Way to Improve Psychological Science, „Perspectives on Psychological Science”, 6, 2012, s. 608–614, DOI10.1177/1745691612462586 [dostęp 2017-01-08] (ang.).
  17. J. Neyman, E. S. Pearson, On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference: Part I, „Biometrika”, 1/2, 1928, s. 175–240, DOI10.2307/2331945, JSTOR2331945 [dostęp 2017-01-08].
  18. Katherine S. Button i inni, Power failure: why small sample size undermines the reliability of neuroscience, „Nature Reviews Neuroscience”, 5, 2013, s. 365–376, DOI10.1038/nrn3475, ISSN 1471-003X [dostęp 2017-01-08] (ang.).
  19. Michael Borenstein i inni, Vote Counting – A New Name for an Old Problem, „Introduction to Meta-Analysis”, John Wiley & Sons, Ltd, 2009, s. 251–255, DOI10.1002/9780470743386.ch28, ISBN 9780470743386 [dostęp 2017-01-08] (ang.).