Wartość p

Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo uzyskania wyników testu co najmniej tak samo skrajnych, jak te zaobserwowane w rzeczywistości (w próbie losowej z populacji), obliczone przy założeniu, że hipoteza zerowa jest prawdziwa. Może być interpretowana jako miara niezgodności danych z założonym modelem, wyrażonym w hipotezie zerowej. Wyniki testów statystycznych sugerujące istnienie poszukiwanych zależności mogą być obserwowane wskutek losowej zmienności prób, choć w populacji wcale nie występują, dlatego błąd losowy powinien być kontrolowany, na przykład przy pomocy wartości $p$ . Jest to jednak narzędzie, które świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości $p$ są w naukach powszechne^[2].

Wartość $p$ jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość $p$ jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona^[3]^[4].

Wartość $p$ to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: $P(D^{+}|H_{0}).$ Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych niczego odbiegającego od założonej hipotezy zerowej (często jest nią brak efektu). Wartości $p$ nie należy mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:

P(D^{+}|H_{0})\neq P(D|H_{1})\neq P(H_{0}|D)\neq P(H_{1}|D).

Według oryginalnej propozycji Ronalda Fishera wartość $p$ może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Spława-Neyman i Pearson, uważali, że takie oceny są nieuprawnione^[3]^[4]. W realistycznych sytuacjach wartość $p$ nie musi silnie korelować z prawdziwością hipotezy zerowej^[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.

Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości $p$ , jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)^[6]^[7].

Definicja

W modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej $H_{0},$ tj. zakładający brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności $\alpha =0{,}05.$ Wartość $p$ to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej $P(D^{+}|H_{0}).$ Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość $p$ jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle $H_{0}$ i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie^[8]^[9]. Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę przeciwdziałającą problemowi porównań wielokrotnych, np. Bonferroniego.

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące – przy założeniu hipotezy zerowej.

Interpretacja

Wartość $p$ niższa od krytycznego poziomu istotności $(p<0{,}05)$ w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy badawczej. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: $P(D^{+}|H_{0})\neq P(H_{1}|D).$ Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej $\alpha =0{,}05$ ). Nie wyraża również istotności praktycznej badanego zjawiska – niską wartość $p$ można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu z jej przedziałem ufności^[2]^[10].

Wartość $p$ wyższa od poziomu istotności $(p>0{,}05)$ jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)^[11]. Możliwe jest też na przykład, że badane zjawisko jest powierzchownie podobne do hipotezy zerowej – jak np. niektóre mechanizmy doboru naturalnego w biologii ewolucyjnej – i hipoteza badawcza musi być wyrażona w postaci bardziej szczegółowego modelu^[12].

To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości $p$ pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa^[2]^[9].

Rozkład wartości $p$

Przy bardzo wysokiej mocy statystycznej testów, wyniki, które leżą poniżej, ale blisko progu istotności statystycznej $\alpha =0{,}05$ (np. o wartości $p$ z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.

Gdy różnica, której istnienie testujemy, jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości $p$ jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.

Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości $p$ jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości $p$ bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej^[13]^[14].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać, że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład $P$ -curve^[15].

Przykład

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła, jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie 14 orłów z 20 rzutów. Wartość $p$ takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi:

p=\sum _{k=14}^{n}P_{n}(k)=\sum _{k=14}^{n}{\binom {n}{k}}\,p_{\psi }^{k}(1-p_{\psi })^{n-k}=0{,}0577\;\;{\textrm {gdzie}}\;\;n=20,\,p_{\psi }={\frac {1}{2}}

Otrzymujemy zatem wartość $p$ większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też

test istotności

Przypisy

↑ LeonhardL. Held LeonhardL., A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI: 10.1186/1471-2288-10-21, ISSN 1471-2288, PMID: 20233437, PMCID: PMC2851703 [dostęp 2017-01-30] .
↑ ^a ^b ^c SanderS. Greenland SanderS. i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI: 10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID: 27209009, PMCID: PMC4877414 [dostęp 2017-02-09] (ang.).
↑ ^a ^b Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
↑ ^a ^b RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .
↑ DavidD. Trafimow DavidD., StephenS. Rice StephenS., A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI: 10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID: 19650521 [dostęp 2017-01-15] .
↑ CharlesCh. Seife CharlesCh., The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI: 10.1038/scientificamerican0811-30a [dostęp 2017-01-15] .
↑ Craig M.C.M. Bennett Craig M.C.M., MBM. Miller MBM., GLG. Wolford GLG., Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI: 10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15] .
↑ GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2017-01-15] .
↑ ^a ^b Ronald L.R.L. Wasserstein Ronald L.R.L., Nicole A.N.A. Lazar Nicole A.N.A., The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI: 10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15] .
↑ JacobJ. Cohen JacobJ., The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI: 10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15] .
↑ DanielD. Lakens DanielD., Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017 .
↑ Jerald B.J.B. Johnson Jerald B.J.B., Kristian S.K.S. Omland Kristian S.K.S., Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI: 10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).
↑ ThomasT. Sellke ThomasT., M.J.M.J. Bayarri M.J.M.J., James O.J.O. Berger James O.J.O., Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI: 10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14] .
↑ DaniëlD. Lakens DaniëlD., On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI: 10.7717/peerj.1142, ISSN 2167-8359, PMID: 26246976, PMCID: PMC4525697 [dostęp 2017-01-08] .
↑ UriU. Simonsohn UriU., Joseph P.J.P. Simmons Joseph P.J.P., Leif D.L.D. Nelson Leif D.L.D., Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI: 10.1037/xge0000104, ISSN 1939-2222, PMID: 26595842 [dostęp 2017-01-08] .

[1] LeonhardL. Held LeonhardL., A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI: 10.1186/1471-2288-10-21, ISSN 1471-2288, PMID: 20233437, PMCID: PMC2851703 [dostęp 2017-01-30] .

[:3-2] SanderS. Greenland SanderS. i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI: 10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID: 27209009, PMCID: PMC4877414 [dostęp 2017-02-09] (ang.).

[:0-3] Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).

[:1-4] RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .

[5] DavidD. Trafimow DavidD., StephenS. Rice StephenS., A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI: 10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID: 19650521 [dostęp 2017-01-15] .

[6] CharlesCh. Seife CharlesCh., The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI: 10.1038/scientificamerican0811-30a [dostęp 2017-01-15] .

[7] Craig M.C.M. Bennett Craig M.C.M., MBM. Miller MBM., GLG. Wolford GLG., Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI: 10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15] .

[8] GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2017-01-15] .

[:2-9] Ronald L.R.L. Wasserstein Ronald L.R.L., Nicole A.N.A. Lazar Nicole A.N.A., The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI: 10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15] .

[10] JacobJ. Cohen JacobJ., The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI: 10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15] .

[11] DanielD. Lakens DanielD., Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017 .

[12] Jerald B.J.B. Johnson Jerald B.J.B., Kristian S.K.S. Omland Kristian S.K.S., Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI: 10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).

[13] ThomasT. Sellke ThomasT., M.J.M.J. Bayarri M.J.M.J., James O.J.O. Berger James O.J.O., Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI: 10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14] .

[14] DaniëlD. Lakens DaniëlD., On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI: 10.7717/peerj.1142, ISSN 2167-8359, PMID: 26246976, PMCID: PMC4525697 [dostęp 2017-01-08] .

[15] UriU. Simonsohn UriU., Joseph P.J.P. Simmons Joseph P.J.P., Leif D.L.D. Nelson Leif D.L.D., Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI: 10.1037/xge0000104, ISSN 1939-2222, PMID: 26595842 [dostęp 2017-01-08] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]