P-wartość

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

P-wartość[1], prawdopodobieństwo testowe (ang. p-value, probability value), graniczny poziom istotności[1]prawdopodobieństwo uzyskania wartości pewnej statystyki (np. różnicy średnich) takich, jak faktycznie zaobserwowane, lub bardziej oddalonych od zera, przy założeniu, że hipoteza zerowa jest spełniona. Stosowane jako miara prawdopodobieństwa popełnienia błędu pierwszego rodzaju, czyli liczbowe wyrażenie istotności statystycznej.

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa, itp.) pozwala bezpośrednio ocenić wiarygodność hipotezy. Jest to bardziej elastyczna alternatywa klasycznych przedziałów ufności, gdyż nie wymaga zakładania z góry żadnego poziomu ufności.

Istnieją sytuacje w których wniosek do którego prowadzi obliczanie p-wartości jest błędny[2].

Dystrybucja P-wartości[edytuj]

Rozkład P-wartości dla H1 ilustrujący, że przy wysokiej mocy wartości istotne statystycznie mogą nadal być bardziej prawdopodobne dla H0
Rozkład P-wartości dla H0 i H1 przy mocy testu >80% i średniej wielkości efektu. W takiej sytuacji znaczna część wartości p poniżej progu istotności 0,05 jest bardziej prawdopodobna dla hipotezy zerowej, niż alternatywnej.

Oczekiwany rozkład wartości p w sytuacji, w której zjawisko które testujemy jest w rzeczywistości nieobecne (innymi słowy, gdy hipoteza zerowa jest prawdziwa), jest jednostajny – każda wartość jest identycznie prawdopodobna, tak więc spodziewamy się, że 5% wyników dzięki naturalnej wariancji przekroczy próg istotności 0,05. Rozkład P-wartości w sytuacji, gdy testujemy faktycznie istniejące zjawisko, jest silnie prawoskośny, w stopniu zależącym od mocy statystycznej badania. Jedną z konsekwencji tego faktu jest to, że w warunkach bardzo wysokiej mocy statystycznej, wyniki które nieznacznie przekroczyły próg istotności statystycznej α=0,05, np. o wartości p z przedziału 0,01–0,05, świadczą wbrew logice konwencjonalnej procedury de facto bardziej na rzecz hipotezy zerowej, mimo że są nominalnie istotne. Przy dużej mocy testu, większość badań prawdziwego zjawiska powinna osiągać wartości p dążące do zera[3].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem, można podejrzewać że ma miejsce tendencyjność publikacji lub oszustwo naukowe. Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład P-curve[4].

Przykład[edytuj]

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie co najmniej 14 orłów z 20 rzutów. P-wartość takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi 0,0577. Otrzymujemy zatem p-wartość większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też[edytuj]

Przypisy

  1. a b Testowanie hipotez. [dostęp 2012-04-29]. s. 2.
  2. Charles Seife. Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380. 
  3. DaniëlD. Lakens DaniëlD., On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, DOI10.7717/peerj.1142, ISSN 2167-8359, PMID26246976, PMCIDPMC4525697 [dostęp 2017-01-08].
  4. UriU. Simonsohn UriU., Joseph P.J. P. Simmons Joseph P.J. P., Leif D.L. D. Nelson Leif D.L. D., Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 6, 2015, s. 1146–1152, DOI10.1037/xge0000104, ISSN 1939-2222, PMID26595842 [dostęp 2017-01-08].