Problem porównań wielokrotnych: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
uzupełnienie
→‎FDR: rozwinięcie
Linia 23: Linia 23:


=== FDR ===
=== FDR ===
FDR (ang. ''false discovery ratio'') – oczekiwana proporcja błędów I rodzaju wśród wyników istotnych statystycznie. Wskaźnik ten kontroluje np. procedura Benjaminiego–Hochberga. W tym przypadku FWER może czasami przekraczać nominalny poziom istotności np. 5%, gwarantując jednak wyższą moc statystyczną<ref name=":2" />.
FDR (ang. ''false discovery rate'') – oczekiwana proporcja błędów I rodzaju wśród wyników istotnych statystycznie. Wskaźnik ten kontroluje np. procedura Benjaminiego–Hochberga. W tym przypadku FWER może czasami przekraczać nominalny poziom istotności np. 5%, gwarantując jednak wyższą moc statystyczną<ref name=":2" />.

Dopełnieniem FDR jest PPV (ang. ''positive predictive value'' – wartość predykcyjna dodatnia): <math>\text{PPV} = 1 - \text{FDR}</math>. PPV jest miarą, która opisuje oczekiwaną proporcję trafnych potwierdzeń prawdziwych hipotez wśród wyników istotnych statystycznie. Według hiperbolicznego stwierdzenia Ioannidesa, ze względu na niską przeciętną [[Moc testu|moc statystyczną]] badań, i inne powszechne słabości metodologiczne, takie jak [[Złudzenie publikacyjne|efekt szuflady]], ogólne PPV w naukach jest niskie – „większość opublikowanych wyników naukowych jest fałszywa”<ref>{{Cytuj|autor=John P. A. Ioannidis|tytuł=Why Most Published Research Findings Are False|czasopismo=PLOS Medicine|data=2005-08-30|data dostępu=2017-01-31|issn=1549-1676|wolumin=2|numer=8|s=e124|doi=10.1371/journal.pmed.0020124|pmid=16060722|pmc=PMC1182327|url=http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124}}</ref><ref>{{Cytuj|autor=David Colquhoun|tytuł=An investigation of the false discovery rate and the misinterpretation of p-values|czasopismo=Royal Society Open Science|data=2014-11-01|data dostępu=2017-01-31|issn=2054-5703|wolumin=1|numer=3|s=140216|doi=10.1098/rsos.140216|pmid=26064558|pmc=PMC4448847|url=http://rsos.royalsocietypublishing.org/content/1/3/140216|język=en}}</ref>. Przez analogię zdefiniowano także NPV (ang. ''negative predictive value'' – wartość predykcyjna ujemna), tj. miarę trafnych rozpoznań błędnych hipotez, oraz szereg innych podobnych wskaźników statystycznych<ref>{{Cytuj|autor=Douglas G. Altman, J. Martin Bland|tytuł=Statistics Notes: Diagnostic tests 2: predictive values|czasopismo=BMJ|data=1994-07-09|data dostępu=2017-01-31|issn=0959-8138|wolumin=309|numer=6947|s=102|doi=10.1136/bmj.309.6947.102|pmid=8038641|url=http://www.bmj.com/content/309/6947/102.1|język=en}}</ref>.


{{Przypisy}}
{{Przypisy}}

Wersja z 01:36, 1 lut 2017

Problem porównań wielokrotnych – w statystyce, zjawisko występujące przy dokonywaniu estymacji lub weryfikacji hipotez statystycznych, polegające na zwiększonym ponad nominalny poziom istotności ryzyku omyłkowego przyjęcia fałszywej hipotezy alternatywnej (popełnienia błędu I rodzaju), przy wykonywaniu wielu porównań tej samej grupy (rodziny) hipotez jednocześnie. Przynajmniej jeden z testów może przypadkiem, dzięki losowej zmienności prób, przekroczyć próg istotności z prawdopodobieństwem równym[1][2]:

Przy konwencjonalnym poziomie , grupowe ryzyko popełnienia przynajmniej jednego błędu I rodzaju przekracza 50% już przy liczbie porównań wielokrotnych .

Przykładowo, choć w rzeczywistości w populacji badane zjawisko nie występuje w żadnym stopniu, badacz który wykona kilkaset porównań bez odpowiedniej poprawki w podgrupach według płci, wieku, wykształcenia, klasy socjoekonomicznej, miejsca zamieszkania – np. w modelu 2 płcie × 5 grup wiekowych × 5 grup wykształcenia × 3 klasy socjoekonomiczne × 3 typy miejsca zamieszkania, co daje 450 porównań – znajdzie praktycznie na pewno bardzo wiele przypadkowo istotnych statystycznie różnic. Nawet jeśli badane zjawisko rzeczywiście istnieje, zaburzona kontrola błędu I rodzaju powoduje przeszacowywanie jego wielkości efektu.

Zaproponowano szereg prostych narzędzi przeciwdziałających temu problemowi, polegających zwykle na zmniejszeniu nominalnego poziomu istotności każdego testu o określoną poprawkę na porównania wielokrotne, takich jak poprawka Bonferroniego, poprawka Holma–Bonferroniego, czy procedura Benjaminiego–Hochberga. Wadą niektórych z nich jest obniżenie mocy testu, tzn. zwiększenie ryzyka odrzucenia prawdziwej hipotezy alternatywnej (popełnienia błędu II rodzaju) – jak w przypadku konserwatywnej, klasycznej poprawki Bonferroniego – dlatego wskazane jest też ograniczenie liczby wykonywanych porównań do niezbędnego minimum. Nowsze metody, takie jak poprawka Holma–Bonferroniego czy procedura Benjaminego–Hochberga, oraz techniki samowsporne (bootstrap) są mniej kosztowne pod względem mocy statystycznej[2]. W szerszym kontekście procesu badawczego, fałszywe wyniki oraz błędy metodologiczne mogą być rozpoznawane i rozwiązywane przy pomocy replikacji i metaanaliz[3]. Z drugiej strony, Gelman zwraca uwagę, że w wielu przypadkach nadmierna troska o błędy I rodzaju może być szkodliwa: badacz który poprawnie przestrzega zasad wnioskowania częstościowego, powinien rozstrzygać o wartości odkrycia na podstawie mocy testu i wielkości efektu, a nie samej istotności statystycznej[4].

Problem porównań wielokrotnych spotyka się również w badaniach eksploracyjnych, oraz w komputerowej eksploracji danych (data miningu), jednak w zastosowaniach eksploracyjnych może być traktowany inaczej i rozwiązywany np. przez zaplanowanie w dalszych krokach badań konfirmacyjnych, czy stosowanie sprawdzianu krzyżowego (kroswalidacji) oraz metod samowspornych (bootstrap). Problem w mniejszym stopniu dotyczy również metod strukturalnych i hierarchicznych technik bayesowskich[4].

Definicje ryzyka grupowego

Definicja rodziny hipotez

Głównym kryterium określającym granice rodziny powiązanych hipotez i testów jest oparcie na wspólnym zbiorze danych. Luźnym, dodatkowym kryterium jest również przynależność do wyników interpretowanych przez badacza jako potwierdzenie wspólnej grupy hipotez badawczych. Problem porównań wielokrotnych może nie dotyczyć przypadku, gdy jeden zbiór danych jest wykorzystywany do dwóch zupełnie różnych celów[3][5]. Zależnie od ścisłości i poziomu analizy, grupowe ryzyko błędu można sformułować na kilka różnych sposobów, takich jak PFER, FWER czy FDR.

PFER

PFER (ang. per family error rate) – oczekiwana proporcja błędów I rodzaju w rodzinie testów. Klasyczna poprawka Bonferroniego kontroluje ten wskaźnik[5]. Choć jest on często określany jako zbyt zachowawczy, Frane argumentuje, że w praktyce powinien być częściej uwzględniany np. w przypadku badań medycznych, gdy błąd jest szczególnie kosztowny, ponieważ najmniej konserwatywne metody mogą go bardzo poważnie podwyższać[6].

FWER

FWER (ang. family-wise error rate) – prawdopodobieństwo popełnienia co najmniej jednego błędu I rodzaju w rodzinie testów. Wskaźnik ten kontroluje np. poprawka Holma–Bonferroniego[5].

FDR

FDR (ang. false discovery rate) – oczekiwana proporcja błędów I rodzaju wśród wyników istotnych statystycznie. Wskaźnik ten kontroluje np. procedura Benjaminiego–Hochberga. W tym przypadku FWER może czasami przekraczać nominalny poziom istotności np. 5%, gwarantując jednak wyższą moc statystyczną[5].

Dopełnieniem FDR jest PPV (ang. positive predictive value – wartość predykcyjna dodatnia): . PPV jest miarą, która opisuje oczekiwaną proporcję trafnych potwierdzeń prawdziwych hipotez wśród wyników istotnych statystycznie. Według hiperbolicznego stwierdzenia Ioannidesa, ze względu na niską przeciętną moc statystyczną badań, i inne powszechne słabości metodologiczne, takie jak efekt szuflady, ogólne PPV w naukach jest niskie – „większość opublikowanych wyników naukowych jest fałszywa”[7][8]. Przez analogię zdefiniowano także NPV (ang. negative predictive value – wartość predykcyjna ujemna), tj. miarę trafnych rozpoznań błędnych hipotez, oraz szereg innych podobnych wskaźników statystycznych[9].

  1. Rupert G. Miller, Simultaneous statistical inference, Springer-Verlag, 1981, ISBN 0-387-90548-0.
  2. a b Yoav Benjamini, Simultaneous and selective inference: Current successes and future challenges, „Biometrical Journal”, 52 (6), 2010, s. 708–721, DOI10.1002/bimj.200900299, ISSN 1521-4036 [dostęp 2017-01-31] (ang.).
  3. a b Stanley S. Young, Resampling-based multiple testing: examples and methods for P-value adjustment, Wiley, 1993, ISBN 978-0-471-55761-6, OCLC 26128320.
  4. a b Andrew Gelman, Jennifer Hill, Masanao Yajima, Why we (usually) don't have to worry about multiple comparisons, „arXiv:0907.2478 [stat]”, 14 lipca 2009 [dostęp 2017-01-31].
  5. a b c d J P Shaffer, Multiple Hypothesis Testing, „Annual Review of Psychology”, 46 (1), 2003, s. 561–584, DOI10.1146/annurev.ps.46.020195.003021 [dostęp 2017-01-31] (ang.).
  6. Andrew V. Frane, Are Per-Family Type I Error Rates Relevant in Social and Behavioral Science?, „Journal of Modern Applied Statistical Methods”, 14 (1), 2015 [dostęp 2017-01-31] (ang.).
  7. John P.A. Ioannidis, Why Most Published Research Findings Are False, „PLOS Medicine”, 2 (8), 2005, e124, DOI10.1371/journal.pmed.0020124, ISSN 1549-1676, PMID16060722, PMCIDPMC1182327 [dostęp 2017-01-31].
  8. David Colquhoun, An investigation of the false discovery rate and the misinterpretation of p-values, „Royal Society Open Science”, 1 (3), 2014, s. 140216, DOI10.1098/rsos.140216, ISSN 2054-5703, PMID26064558, PMCIDPMC4448847 [dostęp 2017-01-31] (ang.).
  9. Douglas G. Altman, J. Martin Bland, Statistics Notes: Diagnostic tests 2: predictive values, „British Medical Journal”, 309 (6947), 1994, s. 102, DOI10.1136/bmj.309.6947.102, ISSN 0959-8138, PMID8038641 [dostęp 2017-01-31] (ang.).