Zaniedbywanie miarodajności

Zaniedbywanie miarodajności (ang. base rate neglect lub base rate fallacy) – błąd logiczny polegający na podejmowaniu decyzji w oparciu o dane, które są nieistotne, i pomijaniu danych, które są istotne – w szczególności, gdy dane statystyczne na temat miarodajności tych danych są dostępne. Zaniedbanie miarodajności jest spowodowane tym, że ludzie opierają szacunki wiarygodności testu w oparciu o jego czułość i swoistość, które są cechami samego testu, a nie wartość predykcyjną, która zależy od testu oraz danych.

Przykład[edytuj | edytuj kod]

Przykładem niech będzie miasto o populacji 1 milion mieszkańców. Wiadomo, że wśród nich znajduje się 100 terrorystów, zaś pozostałych 999 900 obywateli jest praworządnych. Dla uproszczenia przyjmujemy, że w mieście znajdują się wyłącznie jego mieszkańcy. Dla poprawy bezpieczeństwa publicznego, władze miasta postanowiły zainstalować system kamer sprzężonych z systemem rozpoznawania twarzy. System ten posiada następujące parametry:

1% szansy, że system zwróci wynik fałszywie dodatni (tj. 1 na 100 praworządnych obywateli zostanie rozpoznany jako terrorysta)
1% szansy, że system zwróci wynik fałszywie ujemny (tj. 1 na 100 terrorystów zostanie rozpoznany jako praworządny obywatel)

Przypuśćmy, że przypadkowy mieszkaniec włączył alarm w systemie. Jaka jest szansa, że mieszkaniec ten jest faktycznie terrorystą? Intuicyjne rozumowanie mówi, że szansa ta wynosi 99%. Rozumowanie to jest jednak głęboko błędne, gdyż szansa ta faktycznie wynosi około 1%, a rozbieżność jest spowodowana właśnie zaniedbaniem miarodajności.

Intuicyjne rozumowanie bierze się z mylenia pojęć: zarówno „liczba alarmów na 100 praworządnych obywateli”, jak i „liczba braku alarmów na 100 terrorystów” wynosi 1, stąd też łatwo jest przyjąć, że „liczba błędnych alarmów na 100” wynosi 1. Są to jednak dwa zupełnie niezwiązane pojęcia, które odnoszą się wyłącznie do parametrów systemu. Prawidłowe oszacowanie prawdopodobieństwa błędu wymaga uwzględnienia również parametrów danych, na których test jest przeprowadzany. Łatwo jest to zobaczyć na przykładzie innego miasta, w którym również mieszka 1 milion ludzi, ale wśród nich znajduje się 0 terrorystów. Oczywistym jest, że niezależnie od liczby alarmów w drugim mieście, 100% z nich musi być fałszywych, mimo tego, że nominalna szansa na wynik fałszywie dodatni wynosi tylko 1%.

Faktyczne prawdopodobieństwo fałszywego alarmu łatwo jest wyprowadzić, jeśli założymy, że wszyscy obywatele przeszli przez pole widzenia kamery. Około 99 ze 100 terrorystów włączy alarm, tak jak i 9999 z 999 900 pozostałych mieszkańców. Zatem na 10 998 alarmów w sumie, 99 było prawidłowych, dając mniej niż 1% wiarygodności, co jest liczbą dramatycznie rozbieżną z naiwnym szacunkiem 99%.

Tak wielka rozbieżność jest spowodowana ogromną nierównowagą liczby terrorystów i praworządnych obywateli. Gdyby liczby te były w przybliżeniu równe, i system tak jak w przykładzie miał w przybliżeniu równe szanse na zwrócenie wyniku fałszywie dodatniego, jak i fałszywie ujemnego, to faktyczna szansa błędnej identyfikacji równałaby się mniej więcej prawdopodobieństwu fałszywego alarmu. Wiele codziennych sytuacji wpisuje się w ten wzorzec: np. wiele testów ciążowych ma takie parametry, a jednocześnie około połowa kobiet przeprowadzających je jest faktycznie w ciąży, stąd też odsetek błędów wśród testów z wynikiem dodatnim jest podobny jak odsetek fałszywych wyników dodatnich wśród kobiet, które nie są w ciąży. Stąd też łatwość popadnięcia w błąd zaniedbania miarodajności, gdyż w wielu częstych sytuacjach otrzymane wyniki nie są bardzo rozbieżne od prawidłowych.

Jednak obszerna klasa sytuacji, takich jak powyższe zagadnienie wykrywania przestępców wśród z reguły praworządnych mieszkańców, dotyczy zdarzeń, gdzie (prawidłowe) wyniki dodatnie są bardzo rzadkie. Stąd też nawet bardzo niski współczynnik fałszywych alarmów powoduje ogromne zaburzenie wiarygodności wyników, czyniąc tego typu testy bezużytecznymi.

Formalne wyprowadzenie wyników[edytuj | edytuj kod]

W powyższym przykładzie, gdzie Pr(T|A) oznacza „prawdopodobieństwo T, gdy zaszło A”, zaniedbanie miarodajności jest wynikiem przyjęcia, że Pr(alarm|terrorysta) jest równe Pr(terrorysta|alarm), w połączeniu z wiedzą, że Pr(alarm|terrorysta) = 99%. Sprawdźmy zatem, czy założenie jest prawdziwe, tzn.

$Pr(\mathrm {terrorysta} |\mathrm {alarm} ){\overset {\underset {\mathrm {?} }{}}{=}}Pr(\mathrm {alarm} |\mathrm {terrorysta} ).$

Jak się okazuje, nie, co wynika z obliczenia prawdopodobieństw przy użyciu twierdzenia Bayesa:

${\begin{aligned}Pr(\mathrm {terrorysta} |\mathrm {alarm} )&={\frac {Pr(\mathrm {alarm} |\mathrm {terrorysta} )Pr(\mathrm {terrorysta} )}{Pr(\mathrm {alarm} )}}\\&={\frac {Pr(\mathrm {alarm} |\mathrm {terrorysta} )\times Pr(\mathrm {terrorysta} )}{Pr(\mathrm {alarm} |\mathrm {terrorysta} )\times Pr(\mathrm {terrorysta} )+Pr(\mathrm {alarm} |\mathrm {nieterrorysta} )\times Pr(\mathrm {nieterrorysta} )}}\\&={\frac {0{,}99\cdot (100/1\,000\,000)}{{\frac {0{,}99\,\cdot \,100}{1\,000\,000}}+{\frac {0{,}01\,\cdot \,999\,900}{1\,000\,000}}}}\\&=1/102\approx 1\%\end{aligned}}$

A zatem wiarygodność testu została stukrotnie przeszacowana, gdyż szacunek nie wziął pod uwagę tego, że nieterroryści są 10 000 razy liczniejsi niż terroryści (a zatem pominął wstępne oczekiwania dotyczące liczby terrorystów).

Psychologia błędnej oceny miarodajności[edytuj | edytuj kod]

W eksperymentach polegających na szacowaniu wyników hipotetycznych uczniów badani często mają tendencję do ignorowania danych o rozkładach ocen, jeśli otrzymają jakiekolwiek informacje szczegółowe o tych uczniach – nawet jeśli te informacje nie mają żadnego związku z wynikami szkolnymi.

Podobne badania były używane jako podstawa kwestionowania sensowności rozmów kwalifikacyjnych przy przyjmowaniu na uczelnie w USA. Z danych statystycznych wynika, że wyniki takich rozmów mają się nijak do przyszłych wyników tych studentów. Podobnie niektórzy ekonomiści pokazują, że korzystanie z funduszy inwestycyjnych do grania na giełdzie jest bezcelowe, ponieważ wyniki całej giełdy i wyniki przeciętnego jej gracza są identyczne. Tym samym losowy wybór portfolio daje równie dobre wyniki jak profesjonalne analizy.

Zobacz też[edytuj | edytuj kod]

Bibliografia[edytuj | edytuj kod]

Logical Fallacy: The Base Rate Fallacy
Bar-Hillel, M. (1980). The base-rate fallacy in probability judgments. Acta Psychologica, 44, s. 211–233.
Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological Review, 80, s. 237–251.
Nisbett, R.E., Borgida, E., Crandall, R., & Reed, H. (1976). Popular induction: Information is not always informative. In J.S. Carroll & J.W. Payne (Eds.), Cognition and social behavior, 2, s. 227–236.