Lemat Neymana-Pearsona: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
Usunięta treść Dodana treść
utworzenie artykułu
(Brak różnic)

Wersja z 16:45, 31 mar 2019

Lemat Neymana–Pearsona – twierdzenie z obszaru statystyki opublikowane przez Jerzego Neymana i Egona Pearsona w 1933. Stanowi – w amalgamacie z wcześniejszą propozycją Ronalda Fishera – jedną z podstaw procedury weryfikacji hipotez w podejściu częstościowym[1][2][3].

Kontekst i motywacja

 Główny artykuł: Wnioskowanie częstościowe.

Procedura testowa zaproponowana przez Fishera w 1925 miała następującą postać[1]:

  1. Wybierz hipotezę zerową Nie musi ona zakładać zerowego efektu, tylko taki jaki chcesz sfalsyfikować.
  2. Wykonaj obserwację i przedstaw jej surową wartość p. Oceń na tej podstawie wartość dowodową danych według własnych kryteriów.
  3. Korzystaj z tej procedury tylko jeśli badasz słabo znany obszar i nie masz lepszych narzędzi.

Neyman i Pearson uznali tę propozycję za niesatysfakcjonującą z szeregu powodów, i pracowali nad przedstawionym poniżej alternatywnym podejściem:

  1. Wybierz dwie hipotezy, które chcesz porównać: i oraz dostosowane do konkretnego problemu dopuszczalne ryzyko błędów pierwszego rodzaju i drugiego rodzaju Wykonaj na ich podstawie analizę kosztów w celu wybrania optymalnego testu i wielkości próby dla rozstrzygania pomiędzy hipotezami na wybranym poziomie błędów.
  2. Jeśli zaobserwowane dane spełniają kryterium odrzucenia postępuj tak jakby była prawdziwa; w przeciwnym razie postępuj tak, jakby prawdziwa była
  3. Procedura ta nie rozstrzyga o prawdziwości hipotez, ale pozwala w długim horyzoncie czasowym utrzymywać ryzyko błędów w założonych granicach. Jest odpowiednia tylko do zastosowań, w których można jasno określić i a i dają rozbieżne przewidywania.

Lemat Neymana–Pearsona jest matematyczną formalizacją i dookreśleniem pierwszego punktu, opisując metodę konstrukcji optymalnego warunku krytycznego dla danych i

Autorzy obu procedur dopracowywali je z biegiem lat i pozostawali w sporze o ich filozoficzne i praktyczne aspekty do końca życia. Po 1940 r. oba podejścia zaczęły być, wbrew wypowiedziom ich twórców, łączone w podręcznikach w coraz bardziej hybrydową i uproszczoną postać, i przedstawiane przy pomocy języka sugerującego, że pojedyncze wyniki mogą być używane do wyciągania wniosków o subiektywnym prawdopodobieństwie hipotez[1][3][4][5]. Ma ona następującą formę – w krytycznym omówieniu Gigerenzera[1]:

  1. Przyjmij hipotezę zerową , która zakłada zerowy efekt (brak różnic lub korelacji). Nie potrzebujesz określać żadnych szczegółów własnej hipotezy badawczej.
  2. Przyjmij ryzyko błędów pierwszego rodzaju na poziomie istotności 5% i wykonaj test . Jeśli wartość p przekroczy , uznaj swoją hipotezę badawczą za potwierdzoną. Zależnie od wartości p, możesz przedstawić wyniki jako „istotne” na poziomie p<0,05, p<0.01 lub p<0.001.
  3. Stosuj tę procedurę do wszystkich zastosowań.

Ta ostatnia metoda stała się w drugiej połowie XX wieku stosowaną powszechnie, i jest w ocenie m.in. Gigerenzera czy Cohena, „bezmyślnym rytuałem”, używanym zbyt często do celów, do których nie została nigdy przeznaczona ani uprawomocniona[1][6][7][8].

Intuicja

Przy mocy ok. 70% rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej w znacznej części nie pokrywają się
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=100, d=0,5 i dwustronnym α=0,05, co oznacza poziom mocy statystycznej ok. 70%.

Neyman i Pearson jasno odcięli się od kwestii bezpośredniej oceny hipotez, stwierdzając że „żaden test oparty o teorię prawdopodobieństwa nie może sam w sobie stanowić wartościowego dowodu prawdziwości lub fałszywości hipotez”. Uznali, że są natomiast w stanie formalnie opisać reguły decyzyjne, które pozwalają przynajmniej na długoterminowe unikanie błędów[2].

Ich propozycja opiera się o założenie, że i prognozują różne rozkłady badanego parametru w populacji, oraz że próby mogą być z niej pobierane wielokrotnie. Reguły prawdopodobieństwa uzasadniają wówczas oczekiwanie, że w długim okresie próby odzwierciedlą leżący u ich podłoża prawdziwy rozkład. Definiują następnie test statystyczny jako regułę rozstrzygającą pomiędzy hipotezami na podstawie tego, czy próba leży w krytycznym regionie rozkładu który jest zdecydowanie bardziej prawdopodobny dla jednej z nich. To, co badacz uzna za krytyczny region, zależy w ujęciu Neymana i Pearsona od konieczności balansowania ryzyka błędów i [2].

Ujęcie to wyznacza cztery podstawowe możliwości – dwa trafne rozpoznania i dwa błędy – odpowiadające przyjęciu[2]:

  • prawdziwej hipotezy
  • fałszywej hipotezy (błąd pierwszego rodzaju, którego ryzyko to )
  • prawdziwej hipotezy
  • fałszywej hipotezy (błąd drugiego rodzaju, którego ryzyko to )

W tym zakresie w jakim rozkłady pokrywają się, istnieje niebezpieczeństwo że próba pochodząca z jednego z nich może zostać omyłkowo przypisana drugiemu. Lemat dowodzi, że sensowny („najlepszy”) region krytyczny leży na tym zakresie, „na skraju” rozkładów. Ceteris paribus, i wykluczają się – zmiana regionu krytycznego która zwiększa jedno z nich, musi zmniejszać drugie. Najlepszy obszar krytyczny można więc określić jako szerokości o minimalnym prawdopodobieństwie z jednego rozkładu, który wyznacza jednocześnie analogiczne szerokości drugiego – niezależnie od tego jakie konkretnie zostało wybrane[2].

Powyższa konstrukcja regionu krytycznego stanowi podstawę testu statystycznego o najwyższej mocy. Można go wykonać ilorazem wiarygodności danych przy założeniu obu rozkładów, rozstrzygającym na korzyść jednego z nich zależnie od tego, czy plasuje próbę w obszarze krytycznym. Jeśli przyjęto trafny model statystyczny do określania wiarygodności, a próby są losowe, to decyzje oparte o rezultaty takiego testu asymptotycznie (w liczbie prób zmierzającej do nieskończoności) prowadzą do błędów jedynie z przyjętymi nominalnymi poziomami ryzyka[2].

W uproszczeniu, lemat sprowadza się do tego, że region krytyczny testu powinien leżeć „na skraju” rozkładów. Jego historyczne znaczenie polega też na ogólnym przedstawieniu podejścia Neymana i Pearsona do testów, oraz opracowaniu zagadnienia mocy testu we wnioskowaniu statystycznym[2][3].

Lemat

Poniższa ekspozycja lematu Neymana–Pearsona oparta jest o jego prezentację w podręczniku Mooda, Graybilla i Boesa[9].

Niech będzie próbą losową z funkcji na mierze prawdopodobieństwa , gdzie przyjmuje jedną z dwóch znanych wartości lub , a stałą z przedziału . Niech będzie dodatnią stałą, a region krytyczny podzbiorem całej przestrzeni probabilistycznej , które spełniają warunki:

  1. jeśli oraz

Wówczas test odpowiadający regionowi krytycznemu jest testem hipotez i o największej mocy () przy danym .

Dla przypomnienia, wiarygodność to w tym przypadku dla , a to dopełnienie zbioru: .

Dowód

Przyjmijmy że i spełniające warunki 1 i 2 istnieją. Jeśli nie ma żadnego innego testu o istotności lub niższej, jest automatycznie testem o najwyższej mocy. Załóżmy że istnieje alternatywny test o takiej istotności istnieje, z regionem krytycznym  : . Dowód wymaga wykazania, że nie ma wyższej mocy, .

Kroki dowodu wykorzystują wiele wzajemnych relacji zbiorów i , w związku z czym w podążaniu za nim może być pomocne odwoływanie się do ich prostego diagramu Venna.

Przyjmijmy, że dla każdego podzbioru oraz będziemy zapisywać następujące całki wielokrotne dla skrótu w następujący sposób:

Udowodnienie że jest równoważne wykazaniu, że . Następnie:

,

ponieważ dla regionu krytycznego , i stąd także dla :

a dla dopełnienia regionu, , czyli także dla :

oraz .

Jednakże:

co pozwala na konkludowanie dowodu:

.

Przypisy

  1. a b c d e Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2019-03-31] (ang.).
  2. a b c d e f g J. Neyman, E.S. Pearson, On the Problem of the Most Efficient Tests of Statistical Hypotheses, „Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences”, 231 (694-706), 1933, s. 289–337, DOI10.1098/rsta.1933.0009, ISSN 1364-503X [dostęp 2019-03-31] (ang.).
  3. a b c Johannes Lenhard, Models and Statistical Inference: The Controversy between Fisher and Neyman–Pearson, „The British Journal for the Philosophy of Science”, 57 (1), 2006, s. 69–91, DOI10.1093/bjps/axi152, ISSN 1464-3537 [dostęp 2019-03-31] (ang.).
  4. Gerd Gigerenzer, The superego, the ego, and the id in statistical reasoning, [w:] Gideon Keren, Charles Lewis, A Handbook for Data Analysis in the Behaviorial Sciences: Volume 1: Methodological Issues Volume 2: Statistical Issues, Psychology Press, 14 stycznia 2014, ISBN 978-1-317-75998-0 [dostęp 2017-01-15] (ang.).
  5. E.L. Lehmann, The Fisher, Neyman-Peerson Theories of Testing Hypotheses: One Theory or Two? Javier Rojo (red.), Boston, MA: Springer US, 2012, s. 201–208, DOI10.1007/978-1-4614-1412-4_19, ISBN 978-1-4614-1411-7 [dostęp 2019-03-31] (ang.).
  6. Jacob Cohen, The earth is round (p < .05)., „American Psychologist”, 49 (12), 1994, s. 997–1003, DOI10.1037/0003-066X.49.12.997, ISSN 1935-990X [dostęp 2019-03-31] (ang.).
  7. Jesper W. Schneider, Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-14] (ang.).
  8. Raymond Hubbard i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].
  9. Alexander M. Mood, Duane C. Boes, Franklin A. Graybill, Introduction to the Theory of Statistics, wyd. 3rd ed, New York: McGraw-Hill, 1974, ISBN 0-07-042864-6, OCLC 813585341 [dostęp 2019-03-31].