P-wartość

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne w świetle hipotezy zerowej.
Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne w świetle hipotezy zerowej.
Nomogram pozwalający na bayesowskie oszacowanie wynikowego prawdopodobieństwa subiektywnego hipotezy na podstawie P-wartości i prawdopodobieństwa zaczątkowego[1].

P-wartość, wartość p, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo, że zjawisko jakie zaobserwowano w jakimś pomiarze na losowej próbie statystycznej z populacji, mogło wystąpić przypadkowo, wskutek losowej zmienności prób, w sytuacji w której w populacji takie zjawisko wcale nie występuje. Jest definiowane ściśle jako prawdopodobieństwo kumulatywne wylosowania próby takiej, lub bardziej skrajnej, jak zaobserwowana, przy założeniu że hipoteza zerowa jest spełniona. Wartość p jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych, jako narzędzie kontroli błędów pierwszego rodzaju – polegających na pochopnym uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość p jest niższa niż przyjęty z góry poziom istotności statystycznej, można postępować tak jakby hipoteza zerowa została odrzucona[2][3].

Wartość p to prawdopodobieństwo kumulatywne danej obserwacji, lub bardziej skrajnych, przy założeniu hipotezy zerowej: . Można je rozumieć jako stopień w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się niczego wykryć w badaniu. Nie należy go mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej: , ani z prawdopodobieństwem hipotezy badawczej w świetle danych: . Jest to narzędzie służące jedynie do podstawowej kontroli błędów, i świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy, błędne interpretacje wartości p są w naukach powszechne[4].

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa, itp.) pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące przy założeniu hipotezy zerowej. Według oryginalnej propozycji Ronalda Fishera, wartość p może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Neyman i Pearson, uważali że takie oceny są nieuprawnione[2][3]. W praktyce wartość p nie koreluje silnie z nieprawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy decydowaniu wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale unikaniu błędów decyzyjnych przy wielokrotnym powtarzaniu testów.

Istnieją sytuacje w których wniosek do którego prowadzi obliczanie p-wartości jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne: np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami na porównania wielokrotne)[6][7].

Definicja[edytuj]

W modelu wnioskowania częstościowego, przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju, oraz model statystyczny odpowiadający hipotezie zerowej , tj. zakładającej brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności α = 0,05. Wartość p to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej . Odczytuje się ją, zależnie od testu i tego czy zakładamy jedno- lub dwustronną hipotezę alternatywną, z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość p jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle , i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie[8][9].

Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę na porównania wielokrotne, np. Bonferroniego.

Interpretacja[edytuj]

Wartość p niższa od krytycznego poziomu istotności (p < 0,05), w podejściu częstościowym, uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: . Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi on zawsze tyle, jaki przyjęto poziom istotności, najczęściej α = 0,05). Nie wyraża również istotności praktycznej badanego zjawiska – wysoką wartość p można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu, wraz ze swoim przedziałem ufności[4][10].

Wartość p wyższa od poziomu istotności (p > 0,05) jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)[11].

To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości p pojedynczego badania, czy alternatywnych odpowiedników takich jak czynnik Bayesa[4][9].

Dystrybucja P-wartości[edytuj]

Rozkład P-wartości dla H1 ilustrujący, że przy wysokiej mocy wartości istotne statystycznie mogą nadal być bardziej prawdopodobne dla H0
Rozkład P-wartości dla H0 i H1 przy mocy testu >80% i średniej wielkości efektu. W takiej sytuacji znaczna część wartości p poniżej progu istotności 0,05 jest bardziej prawdopodobna dla hipotezy zerowej, niż alternatywnej.

Oczekiwany rozkład wartości p w sytuacji, w której zjawisko które testujemy jest w rzeczywistości nieobecne (innymi słowy, gdy hipoteza zerowa jest prawdziwa), jest jednostajny – każda wartość jest identycznie prawdopodobna, tak więc spodziewamy się, że 5% wyników dzięki naturalnej wariancji przekroczy próg istotności 0,05. Rozkład P-wartości w sytuacji, gdy testujemy faktycznie istniejące zjawisko, jest silnie prawoskośny, w stopniu zależącym od mocy statystycznej badania. Jedną z konsekwencji tego faktu jest to, że w warunkach bardzo wysokiej mocy statystycznej, wyniki które nieznacznie przekroczyły próg istotności statystycznej α=0,05, np. o wartości p z przedziału 0,01–0,05, świadczą wbrew logice konwencjonalnej procedury de facto bardziej na rzecz hipotezy zerowej, mimo że są nominalnie istotne. Przy dużej mocy testu, większość badań prawdziwego zjawiska powinna osiągać wartości p dążące do zera[12].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem, można podejrzewać że ma miejsce tendencyjność publikacji lub oszustwo naukowe. Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład P-curve[13].

Przykład[edytuj]

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie co najmniej 14 orłów z 20 rzutów. P-wartość takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi 0,0577. Otrzymujemy zatem p-wartość większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też[edytuj]

Przypisy

  1. Publikacja w otwartym dostępie – możesz ją przeczytać Leonhard Held, A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI10.1186/1471-2288-10-21, ISSN 1471-2288, PMID20233437, PMCIDPMC2851703 [dostęp 2017-01-30].
  2. a b Jesper W. Schneider, Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
  3. a b Raymond Hubbard i inni, Confusion over Measures of Evidence (p's) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].
  4. a b c Publikacja w otwartym dostępie – możesz ją przeczytać Sander Greenland i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID27209009, PMCIDPMC4877414 [dostęp 2017-02-09] (ang.).
  5. David Trafimow, Stephen Rice, A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID19650521 [dostęp 2017-01-15].
  6. Charles Seife, The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI10.1038/scientificamerican0811-30a [dostęp 2017-01-15].
  7. Craig M. Bennett, MB Miller, GL Wolford, Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47, 2009, DOI10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15].
  8. Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2017-01-15].
  9. a b Ronald L. Wasserstein, Nicole A. Lazar, The ASA's Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15].
  10. Jacob Cohen, The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15].
  11. Daniel Lakens, Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017.
  12. Publikacja w otwartym dostępie – możesz ją przeczytać Daniël Lakens, On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, DOI10.7717/peerj.1142, ISSN 2167-8359, PMID26246976, PMCIDPMC4525697 [dostęp 2017-01-08].
  13. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 6, 2015, s. 1146–1152, DOI10.1037/xge0000104, ISSN 1939-2222, PMID26595842 [dostęp 2017-01-08].