Moc testu

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Przy niskiej mocy rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej znacząco się pokrywają, więc test nie rozróżnia ich rzetelnie
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=60, d=0,2 co oznacza poziom mocy statystycznej ok. 12%
Przy mocy ok 70% rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej w znacznej części nie pokrywają się
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=100, d=0,5 co oznacza poziom mocy statystycznej ok. 70%
Przy bardzo wysokiej mocy rozkłady prawdopodobieństwa statystyki testowej w hipotezie zerowej i alternatywnej pokrywają się w bardzo małym stopniu, i test z wysokim prawdopodobieństwem dobrze je rozróżni
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=100, d=0,8 co oznacza poziom mocy statystycznej ok. 98%

Moc testu (moc statystyczna) to prawdopodobieństwo niepopełnienia błędu drugiego rodzaju – przyjęcia hipotezy zerowej, gdy w rzeczywistości jest ona fałszywa. Im większe jest to prawdopodobieństwo, tym lepszy jest dany test jako narzędzie do różnicowania między hipotezą prawdziwą i fałszywą. Moc można wyrazić jako dopełnienie prawdopodobieństwa popełnienia błędu drugiego rodzaju (β), czyli 1-β. Pojęcie to należy do paradygmatu częstościowego w metodologii weryfikacji hipotez statystycznych.

Moc zależy bezpośrednio i przede wszystkim od poniższych zmiennych, oraz od dodatkowych parametrów, głównie specyficznych dla konkretnego testu.

Testy różnią się także mocą pomiędzy sobą, w zależności od tego na ile są stratne informacyjne, oraz w jakim stopniu są dostosowane do konkretnego rodzaju i rozkładu danych[1].

Dbałość naukowców o zapewnienie wysokiej mocy statystycznej w projektowanych badaniach zwiększa jakość nauki i oszczędza zasoby dzięki nieorganizowaniu badań zbyt słabych. Występowanie badań o niskiej mocy w połączeniu z efektem szuflady zaburza proporcje pomiędzy błędami I i II rodzaju oraz prawidłowymi rozpoznaniami w publikacjach, i zniekształca naukowy obraz rzeczywistości. Statystyk Jacob Cohen zalecił badaczom i wydawcom czasopism naukowych dążenie do przyjęcia konwencjonalnego poziomu mocy 0,8 – analogicznie do używania konwencjonalnego poziomu istotności α=0,05.

Narzędzia do obliczania mocy[edytuj]

Większość pakietów statystycznych, takich jak SPSS lub darmowe i otwarte oprogramowanie R posiada funkcje obliczania mocy. Przykładowym, najczęściej spotykanym narzędziem służącym specjalnie do tego celu jest darmowy program G*Power. Programy te pozwalają na obliczanie mocy przed badaniem (a priori), w celu określenia wielkości próby potrzebnej do osiągnięcia pożądanego poziomu mocy, jak również po badaniu (post hoc), np. na potrzeby kontroli jakości.

Przeglądy mocy statystycznej dziedzin nauki[edytuj]

Statystycy regularnie publikują rezultaty badań przeglądowych dla różnych dziedzin nauki, z których wynika że przeciętna moc badań jest dużo niższa niż rekomendowany poziom 0,8. Przykładowo, w przeglądzie dla neuronauki z 2013 r. obejmującym 49 meta-analiz i 730 osobnych badań, mediana mocy dla obserwowanych efektów wyniosła zaledwie 21%[2]. W przeglądzie badań psychologicznych z 1990 r., moc wyniosła 17% dla małych, i 57% dla średnich efektów[3] – a takie wielkości efektu najczęściej spotyka się w tej dziedzinie[4][5]. Analiza z 2006 r. obejmująca publikacje informatyczne wykazała moc 11% dla małych, i 36% dla średnich efektów[6].

Konsekwencje niskiej mocy badań[edytuj]

Nawet przy mocy 80% i badaniu prawdziwego zjawiska, można się spodziewać że tylko w 51,2% przypadków trzy na trzy replikacje badania przyniosą istotny wynik.
Nawet przy mocy 80% i badaniu prawdziwego zjawiska, można się spodziewać że tylko w 51,2% przypadków trzy na trzy replikacje badania przyniosą istotny wynik.

Nawet jeśli badacz projektuje badanie o mocy na rekomendowanym poziomie 0,8, powinien spodziewać się że badając rzeczywiście występujące zjawisko, spotka się z nieudanymi replikacjami. Przykładowo, przy tej mocy, prawdopodobieństwo przyjęcia hipotezy alternatywnej za każdym razem w trzech replikacjach wynosi bowiem tylko 0,83 ≈ 51,2%. W sytuacji w której moc badań jest bliższa poziomu α=0,05 niż 0,8, należy się spodziewać, że znaczna część wyników istotnych statystycznie jest fałszywa, natomiast nieznana część wyników nieistotnych to odrzucone pochopnie prawidłowe hipotezy. Oznacza to zniekształcenie obrazu rzeczywistości, jaki sugeruje treść opublikowanych badań, zwłaszcza w połączeniu z „efektem szuflady”.

Testy o niskiej mocy przeszacowują ponadto obserwowaną wielkość efektu prawdziwych zjawisk, ponieważ istotność statystyczną jest częściej osiągana w próbach, w których z naturalnej wariancji zjawisko występuje z większą siłą[7].

W świetle m.in. powyższych problemów, Ioannidis zadeklarował w publikacji z 2005 r., że większość publikacji naukowych może być błędna[8]. W ostatnich latach statystycy, wydawcy czasopism naukowych oraz towarzystwa zawodowe, takie jak Amerykańskie Towarzystwo Psychologiczne, rekomendują, a w niektórych wypadkach nawet wymagają od badaczy dokumentowania decyzji dotyczących wielkości próby, ze względu na systematyczny problem z niewystarczającą mocą badań[9]. Zaleca się też używanie przedziałów ufności, raportowanie wielkości efektów, prerejestrację planów badawczych, przeprowadzanie replikacji naukowych, stosowanie technik metaanalitycznych, oraz innych metod zwiększających jakość nauki[10][11][12].

Przypisy

  1. DavidD. Colquhoun DavidD., Lectures on Biostatistics An Introduction to Statistics with Applications in Biology and Medicine, Oxford University Press, 1971, s. 96-97 [dostęp 2017-01-09].
  2. Katherine S.K. S. Button Katherine S.K. S., John P. A.J. P. A. Ioannidis John P. A.J. P. A., ClaireC. Mokrysz ClaireC., Brian A.B. A. Nosek Brian A.B. A., JonathanJ. Flint JonathanJ. i inni, Power failure: why small sample size undermines the reliability of neuroscience, „Nature Reviews Neuroscience”, 5, 2013, s. 365–376, DOI10.1038/nrn3475, ISSN 1471-003X [dostęp 2017-01-06] (ang.).
  3. J. S.J. S. Rossi J. S.J. S., Statistical power of psychological research: what have we gained in 20 years?, „Journal of Consulting and Clinical Psychology”, 5, 1990, s. 646–656, ISSN 0022-006X, PMID2254513 [dostęp 2017-01-06].
  4. Frank A.F. A. Bosco Frank A.F. A., HermanH. Aguinis HermanH., KulrajK. Singh KulrajK., James G.J. G. Field James G.J. G., Charles A.Ch. A. Pierce Charles A.Ch. A. i inni, Correlational effect size benchmarks, „The Journal of Applied Psychology”, 2, 2015, s. 431–449, DOI10.1037/a0038047, ISSN 1939-1854, PMID25314367 [dostęp 2017-01-06].
  5. F. D.F. D. Richard F. D.F. D., Charles F.Ch. F. Bond Charles F.Ch. F., Juli J.J. J. Stokes-Zoota Juli J.J. J., One Hundred Years of Social Psychology Quantitatively Described., „Review of General Psychology”, 4, 2003, s. 331–363, DOI10.1037/1089-2680.7.4.331, ISSN 1939-1552 [dostęp 2017-01-06].
  6. ToreT. Dybå ToreT., Vigdis ByV. B. Kampenes Vigdis ByV. B., Dag I. K.D. I. K. Sjøberg Dag I. K.D. I. K., A systematic review of statistical power in software engineering experiments, „Information and Software Technology”, 8, 2006, s. 745–755, DOI10.1016/j.infsof.2005.08.009 [dostęp 2017-01-06].
  7. John P. A.J. P. A. Ioannidis John P. A.J. P. A., Why most discovered true associations are inflated, „Epidemiology (Cambridge, Mass.)”, 5, 2008, s. 640–648, DOI10.1097/EDE.0b013e31818131e7, ISSN 1531-5487, PMID18633328 [dostęp 2017-01-06].
  8. John P. A.J. P. A. Ioannidis John P. A.J. P. A., Why Most Published Research Findings Are False, „PLOS Medicine”, 8, 2005, e124, DOI10.1371/journal.pmed.0020124, ISSN 1549-1676, PMID16060722, PMCIDPMC1182327 [dostęp 2017-01-06].
  9. Statistical methods in psychology journals: Guidelines and explanations., „American Psychologist”, 8, 1999, DOI10.1037/0003-066X.54.8.594, ISSN 1935-990X [dostęp 2017-01-06].
  10. D.D. Lakens D.D., E. R. K.E. R. K. Evers E. R. K.E. R. K., Sailing From the Seas of Chaos Into the Corridor of Stability: Practical Recommendations to Increase the Informational Value of Studies, „Perspectives on Psychological Science”, 3, 2014, s. 278–292, DOI10.1177/1745691614528520 [dostęp 2017-01-06] (ang.).
  11. Open ScienceO. S. Collaboration Open ScienceO. S., An Open, Large-Scale, Collaborative Effort to Estimate the Reproducibility of Psychological Science, „Perspectives on Psychological Science”, 6, 2012, s. 657–660, DOI10.1177/1745691612462588 [dostęp 2017-01-06] (ang.).
  12. DanielD. Lakens DanielD., Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs, „Cognition”, 4, 2013, s. 863, DOI10.3389/fpsyg.2013.00863, PMID24324449, PMCIDPMC3840331 [dostęp 2017-01-06].

Bibliografia[edytuj]

Jacob Cohen (1988), Statistical Power Analysis for the Behavioral Sciences (2nd ed.), New Jersey: Lawrence Erlbaum Associates, ISBN 0-8058-0283-5,

Zobacz też[edytuj]

Przypisy[edytuj]