Czynnik Bayesa
Czynnik Bayesa, czynnik bayesowski[1] (BF, ang. Bayes factor) – stosunek prawdopodobieństwa uzyskania danych obserwacji w dwóch porównywanych modelach. Pozwala on na porównanie, w jakim stopniu dane świadczą na rzecz dwóch alternatywnych hipotez, i jest jedną z metod weryfikowania hipotez statystycznych we wnioskowaniu bayesowskim[2][3].
Definicja
[edytuj | edytuj kod]Zakładając, że porównujemy dwa modele i (wraz z wektorami parametrów i ) na podstawie zbioru obserwacji ich prawdopodobieństwo można porównać przy użyciu czynnika Bayesa
Spotyka się też notację BF10 i BF01, odpowiadające czynnikom Bayesa testującym, odpowiednio, hipotezę alternatywną H1 lub hipotezę zerową H0 przeciwko sobie nawzajem, analogicznie do procedury częstościowej weryfikacji hipotez statystycznych.
Interpretacja
[edytuj | edytuj kod]Wartości świadczą na rzecz hipotezy wartości świadczą na rzecz hipotezy Dla porównania, w podejściu częstościowym, testowana jest jedynie hipoteza zerowa, a o prawdziwości hipotezy alternatywnej można wnioskować jedynie pośrednio. Dwie popularne skale interpretacyjne dla wartości stworzyli Harold Jeffreys, oraz Hass i Raftery[4][5]:
| K (Jeffreys) | K (Hass i Raftery) | Siła dowodowa |
|---|---|---|
| < 1 | < 1 | negatywna (wspiera M2) |
| od 1 do 101/2 (≈3,16) | od 1 do 3 | warta co najwyżej wzmianki |
| od 101/2 (≈3,16) do 10 | od 3 do 20 | znaczna |
| od 10 do 103/2 (≈31,62) | od 20 do 150 | silna |
| od 103/2 (≈31,62) do 100 | > 150 | bardzo silna |
| >100 | rozstrzygająca |
Czynnik Bayesa jest adekwatny do zastosowań epistemologicznych – gdy badacz chce określić relatywne, subiektywne prawdopodobieństwo hipotezy. Do celów podejmowania decyzji służą inne narzędzia, uwzględniające koszt popełnienia błędów, takie jak metody statystyki częstościowej, lub metody bayesowskie z funkcjami strat.
Wartość czynnika Bayesa porównującego hipotezę zerową z hipotezą alternatywną jest w znacznym stopniu współzmienna z odpowiadającą mu p-wartością. Jego przewagą jest w tym przypadku dokładniejsze rozstrzyganie wartości dowodowej wyników, które są bliskie krytycznego poziomu istotności[6]. Przy wysokiej mocy statystycznej badania, mogą być bardziej prawdopodobne dla hipotezy zerowej, jednak w procedurze wnioskowania częstościowego są uznawane za przesłankę na rzecz hipotezy alternatywnej[7]. Czynnik Bayesa pozwala też na łatwe wykonywanie innych porównań, np. minimalnej istotnej klinicznie różnicy.
Przykład
[edytuj | edytuj kod]Przypuśćmy, że mamy zmienną losową, która daje albo sukces, albo porażkę. Chcemy porównać model , w którym prawdopodobieństwo sukcesu wynosi , oraz inny model , w którym jest nieznane, ale zakładamy a priori, że mamy rozkład prawdopodobieństwa jednostajny na przedziale [0,1]. Pobieramy próbę o liczebności 200 i stwierdzamy 115 sukcesów oraz 85 porażek. Rozkład prawdopodobieństwa jest rozkładem dwumianowym:
Zatem dla mamy
zaś dla otrzymujemy
Stosunek powyższych prawdopodobieństw wynosi więc , co jest „ledwie warte wzmianki” (tylko nieznacznie preferowany jest model ).
Test częstościowy hipotezy dla (traktowanej tutaj jako hipoteza zerowa) dałby bardzo odmienny wynik. Taki wynik testu mówi, że model powinien być odrzucony na poziomie istotności 5%, ponieważ prawdopodobieństwo uzyskania 115 lub więcej sukcesów w próbie 200 przy wynosi 0,02, a w teście dwustronnym prawdopodobieństwo uzyskania wyniku tak ekstremalnego jak 115 lub bardziej ekstremalnego wynosi 0,04. Trzeba zauważyć, że wartość 115 jest odległa o ponad dwa odchylenia standardowe od wartości 100. Tak więc, podczas gdy test częstościowy hipotezy prowadziłaby do istotnego statystycznie wyniku na poziomie istotności 5%, czynnik Bayesa w zasadzie w ogóle nie uznaje tego wyniku za ekstremalny.
Należy jednak zauważyć, że założenie a priori rozkładu niejednostajnego (np. takiego, który odzwierciedla oczekiwanie, że liczba sukcesów i porażek będzie tego samego rzędu wielkości) mógłby dać czynnik Bayesa bardziej zgodny z częstościowym testem hipotez.
Klasyczny test ilorazu wiarygodności wyznaczyłby estymator największej wiarygodności dla q, mianowicie , skąd
(zamiast uśredniania po wszystkich możliwych wartościach q). Daje to iloraz wiarygodności równy 0,1 i wskazuje na M2.
jest modelem bardziej złożonym niż , ponieważ ma jeden parametr swobodny, który pozwala mu lepiej dopasować dane. Zdolność czynników Bayesa do uwzględniania tego faktu jest jednym z powodów, dla których wnioskowanie bayesowskie jest przedstawiane jako teoretyczne uzasadnienie i uogólnienie brzytwy Ockhama, prowadzące do ograniczenia błędów I rodzaju[8].
Z drugiej strony, nowoczesna metoda tzw. względnej wiarygodności uwzględnia liczbę parametrów swobodnych w modelach (w przeciwieństwie do klasycznego testu ilorazu wiarygodności):
- model M1 ma 0 parametrów, a więc wartość kryterium informacyjnego Akaikego (AIC) dla tego modelu wynosi
- model M2 ma 1 parametr, a więc jego wartość AIC wynosi .
Stąd M1 jest około razy tak prawdopodobny jak M2 pod względem minimalizacji straty informacyjnej. Zatem M2 jest nieznacznie preferowany, ale M1 nie może zostać wykluczony.
Zobacz też
[edytuj | edytuj kod]Przypisy
[edytuj | edytuj kod]- ↑ Dowodzenie hipotez za pomocą czynnika bayesowskiego (bayes factor): przykłady użycia w badaniach empirycznych, „Decyzje” (26), 2016, s. 109–141, ISSN 1733-0092 [dostęp 2025-07-01] (pol.).
- ↑ Michael E.J. Masson, A tutorial on a practical Bayesian alternative to null-hypothesis significance testing, „Behavior Research Methods”, 43 (3), 2011, s. 679–690, DOI: 10.3758/s13428-010-0049-5, ISSN 1554-3528 [dostęp 2017-01-13] (ang.).
- ↑ Andrew F. Jarosz, Jennifer Wiley, What Are the Odds? A Practical Guide to Computing and Reporting Bayes Factors, „The Journal of Problem Solving”, 7 (1), 2014, DOI: 10.7771/1932-6246.1167, ISSN 1932-6246 [dostęp 2017-01-13].
- ↑ Harold Jeffreys, The Theory of Probability, OUP Oxford, 6 sierpnia 1998, s. 432, ISBN 978-0-19-158967-6 [dostęp 2017-01-13] (ang.).
- ↑ Robert E. Kass, Adrian E. Raftery, Bayes Factors, „Journal of the American Statistical Association”, 90 (430), 1995, s. 773–795, DOI: 10.1080/01621459.1995.10476572, ISSN 0162-1459 [dostęp 2017-01-13].
- ↑ Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rouder, Geoffrey J. Iverson, Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests, „Perspectives on Psychological Science: A Journal of the Association for Psychological Science”, 6 (3), 2011, s. 291–298, DOI: 10.1177/1745691611406923, ISSN 1745-6916, PMID: 26168519 [dostęp 2017-01-15].
- ↑ Daniël Lakens, On the challenges of drawing conclusions fromp-values just below 0.05, „PeerJ”, 3, 2015, DOI: 10.7717/peerj.1142, ISSN 2167-8359, PMID: 26246976, PMCID: PMC4525697 [dostęp 2017-01-15] (ang.).
- ↑ Sharpening Ockham's Razor On a Bayesian Strop