Wartość p

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania
Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne w świetle hipotezy zerowej.
Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne w świetle hipotezy zerowej.
Nomogram pozwalający na bayesowskie oszacowanie wynikowego prawdopodobieństwa subiektywnego hipotezy na podstawie wartości p i prawdopodobieństwa zaczątkowego[1].

Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo, że zjawisko, jakie zaobserwowano w jakimś pomiarze na losowej próbie statystycznej z populacji, mogło wystąpić przypadkowo, wskutek losowej zmienności prób, w sytuacji, w której w populacji takie zjawisko wcale nie występuje. Jest definiowane ściśle jako prawdopodobieństwo kumulatywne wylosowania próby takiej lub bardziej skrajnej, jak zaobserwowana, przy założeniu, że hipoteza zerowa jest spełniona. Wartość p jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych – jako narzędzie kontroli błędów pierwszego rodzaju, polegających na pochopnym uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość p jest niższa, niż przyjęty z góry poziom istotności statystycznej, można postępować tak, jakby hipoteza zerowa została odrzucona[2][3].

Wartość p to prawdopodobieństwo kumulatywne danej obserwacji lub bardziej skrajnych przy założeniu hipotezy zerowej: . Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się niczego wykryć w badaniu. Nie należy go mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej: ani z prawdopodobieństwem hipotezy badawczej w świetle danych: . Jest to narzędzie służące jedynie do podstawowej kontroli błędów, i świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości p są w naukach powszechne[4].

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa, itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące przy założeniu hipotezy zerowej. Według oryginalnej propozycji Ronalda Fishera wartość p może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Neyman i Pearson, uważali że takie oceny są nieuprawnione[2][3]. W praktyce wartość p nie koreluje silnie z nieprawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy decydowaniu wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale unikaniu błędów decyzyjnych przy wielokrotnym powtarzaniu testów.

Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości p, jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne: np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami na porównania wielokrotne)[6][7].

Definicja[edytuj | edytuj kod]

W modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej , tj. zakładającej brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności α = 0,05. Wartość p to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej . Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość p jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie[8][9].

Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę na porównania wielokrotne, np. Bonferroniego.

Interpretacja[edytuj | edytuj kod]

Wartość p niższa od krytycznego poziomu istotności (p < 0,05), w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: . Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej α = 0,05). Nie wyraża również istotności praktycznej badanego zjawiska – wysoką wartość p można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu wraz ze swoim przedziałem ufności[4][10].

Wartość p wyższa od poziomu istotności (p > 0,05) jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)[11].

To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości p pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa[4][9].

Rozkład wartości p[edytuj | edytuj kod]

Rozkład wartości p dla H1 ilustrujący, że przy wysokiej mocy wartości istotne statystycznie mogą nadal być bardziej prawdopodobne dla H0
Rozkład wartości p dla H0 i H1 przy mocy testu ~90%. W takiej sytuacji znaczna część wartości p poniżej progu istotności 0,05, pomimo przekroczenia wartości krytycznej, pozostaje bardziej prawdopodobna dla hipotezy zerowej niż alternatywnej.

Przy bardzo wysokiej mocy statystycznej badania, wyniki testów które leżą poniżej, ale blisko progu istotności statystycznej α=0,05 (np. o wartości p z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.

Gdy różnica której istnienie testujemy jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości p jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.

Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości p jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości p bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej[12][13].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład P-curve[14].

Przykład[edytuj | edytuj kod]

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie co najmniej 14 orłów z 20 rzutów. Wartość p takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi 0,0577. Otrzymujemy zatem wartość p większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Leonhard Held, A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI10.1186/1471-2288-10-21, ISSN 1471-2288, PMID20233437, PMCIDPMC2851703 [dostęp 2017-01-30].
  2. a b Jesper W. Schneider, Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
  3. a b Raymond Hubbard i inni, Confusion over Measures of Evidence (p's) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].
  4. a b c Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Sander Greenland i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID27209009, PMCIDPMC4877414 [dostęp 2017-02-09] (ang.).
  5. David Trafimow, Stephen Rice, A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID19650521 [dostęp 2017-01-15].
  6. Charles Seife, The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI10.1038/scientificamerican0811-30a [dostęp 2017-01-15].
  7. Craig M. Bennett, MB Miller, GL Wolford, Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15].
  8. Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2017-01-15].
  9. a b Ronald L. Wasserstein, Nicole A. Lazar, The ASA's Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15].
  10. Jacob Cohen, The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15].
  11. Daniel Lakens, Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017.
  12. Thomas Sellke, M.J. Bayarri, James O. Berger, Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14].
  13. Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Daniël Lakens, On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI10.7717/peerj.1142, ISSN 2167-8359, PMID26246976, PMCIDPMC4525697 [dostęp 2017-01-08].
  14. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI10.1037/xge0000104, ISSN 1939-2222, PMID26595842 [dostęp 2017-01-08].