Twierdzenie Bayesa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Ilustracja twierdzenia Bayesa przy pomocy dwóch trójwymiarowych drzew decyzyjnych.

Twierdzenie Bayesa (od nazwiska Thomasa Bayesa) to twierdzenie teorii prawdopodobieństwa, wiążące prawdopodobieństwa warunkowe zdarzeń A|B\; oraz B|A\;. Na przykład jeśli A\; jest zdarzeniem „u pacjenta występuje wysoka gorączka”, a B\; jest zdarzeniem „pacjent ma grypę”, twierdzenie Bayesa pozwala przeliczyć znany odsetek gorączkujących wśród chorych na grypę P(A|B)\; i znane odsetki gorączkujących P(A)\; i chorych na grypę P(B)\; w całej populacji, na prawdopodobieństwo, że ktoś jest chory na grypę, gdy wiemy, że ma wysoką gorączkę P(B|A)\;. Twierdzenie stanowi podstawę teoretyczną sieci bayesowskich, stosowanych w eksploracji danych.

Wzór Bayesa[edytuj | edytuj kod]

Teza[edytuj | edytuj kod]

Niech:

X \subset \bigcup_{j=1}^{n} T_{j} \and T_{i} \cap T_{j}=\emptyset , i \not = j , i \in \langle1,j\rangle.

Wtedy:

P(T_i|X) = \frac {P(X|T_i)P(T_i)}{ P(X)}.

Dowód[edytuj | edytuj kod]

P(X \cap T) = P(X|T) P(T) = P(T|X) P(X) \iff P(X|T) P(T) = P(T|X) P(X) \iff P(T|X) = P(X|T) {P(T) \over P(X)}.

Interpretacje[edytuj | edytuj kod]

Prawdopodobieństwo subiektywistyczne[edytuj | edytuj kod]

W interpretacji subiektywistycznej jest twierdzeniem wręcz podstawowym. Otóż niech X będzie pewnym zdarzeniem, T zaś pewną teorią.

P(X) jest obserwowanym prawdopodobieństwem X, zaś P(X|T) to prawdopodobieństwo, że X nastąpi według teorii T. Z kolei P(T) to prawdopodobieństwo, że teoria T jest prawdziwa, P(T|X) to prawdopodobieństwo, że teoria T jest prawdziwa, jeśli zaobserwowano X.

Zdania typu „prawdopodobieństwo, że teoria T jest prawdziwa” są z punktu widzenia interpretacji obiektywistycznej nie do przyjęcia – teoria jest prawdziwa (prawdopodobieństwo równe jedności) lub też nie (prawdopodobieństwo równe zeru), czyli prawdziwość teorii nie jest zdarzeniem losowym.

Zastosowania[edytuj | edytuj kod]

W praktyce używa się zazwyczaj przekształconej wersji twierdzenia Bayesa, gdzie P(X) wyrażone jest jako suma lub całka Lebesgue’a po T:

P(T_i|X) = {P(T_i) P(X|T_i) \over P(T_1) P(X|T_1)+ P(T_2) P(X|T_2)+\dots+P(T_n) P(X|T_n)}.
P(T|X) = {P(T) P(X|T) \over \int P(T) P(X|T) dT}.

Przykłady użycia[edytuj | edytuj kod]

Twierdzenia Bayesa można użyć do interpretacji rezultatów badania przy użyciu testów wykrywających narkotyki. Załóżmy, że przy badaniu narkomana test wypada pozytywnie w 99% przypadków, zaś przy badaniu osoby nie zażywającej narkotyków wypada negatywnie w 99% przypadków. Pewna firma postanowiła przebadać swoich pracowników takim testem wiedząc, że 0,5% z nich to narkomani. Chcemy obliczyć prawdopodobieństwo, że osoba, u której test wypadł pozytywnie, rzeczywiście zażywa narkotyki. Oznaczmy następujące zdarzenia:

  • D – dana osoba jest narkomanem
  • N – dana osoba nie jest narkomanem
  • + – u danej osoby test dał wynik pozytywny
  • - – u danej osoby test dał wynik negatywny

Wiemy, że:

  • P(D)=0,005, gdyż 0,5% pracowników to narkomani
  • P(N)=1-P(D)=0,995
  • P(+|D)=0,99, gdyż taką skuteczność ma test przy badaniu narkomana
  • P(-|N)=0,99, gdyż taką skuteczność ma test przy badaniu osoby nie będącej narkomanem
  • P(+|N)=1-P(-|N)=0,01

Mając te dane, chcemy obliczyć prawdopodobieństwo, że osoba, u której test wypadł pozytywnie, rzeczywiście jest narkomanem. Tak więc:


\begin{align}P(D|+)
& =\frac{P(D)P(+|D)}{P(+)} \\
& =\frac{P(+|D)P(D)}{P(+|D)P(D)+P(+|N)P(N)} \\
& =\frac{0,99 \cdot 0,005}{0,99 \cdot 0,005 + 0,01 \cdot 0,995} \\
& = 0,3322 
\end{align}

Mimo potencjalnie wysokiej skuteczności testu, prawdopodobieństwo, że narkomanem jest badany pracownik, u którego test dał wynik pozytywny, jest równe około 33%, więc jest nawet bardziej prawdopodobnym, ze taka osoba nie zażywa narkotyków. Ten przykład pokazuje, dlaczego ważne jest, aby nie polegać na wynikach tylko pojedynczego testu.

Innymi słowy, pozorny paradoks polegający na dużej dokładności testu (99% wykrywalności narkomanów wśród narkomanów i nieuzależnionych wśród nieuzależnionych) i niskiej dokładności badania bierze się stąd, że w badanej próbie tylko niewielka część osób to narkomani. Przykładowo jeśli badamy 1000 osób, 0,5% z nich, czyli 5 to narkomani, a 995 nie. Natomiast test wskaże jako narkomanów 1% nieuzależnionych (995*1% ≈ 10), oraz 99% uzależnionych (5*99% ≈ 5). Ostatecznie test wypadł pozytywnie dla 15 osób, jednak tylko 5 z nich to narkomani.

Twierdzenia Bayesa używane jest też w samosterujących samochodach testowanych przez Google[1] (pod koniec 2010 roku[2]). Twierdzenia Bayesa znajduje też zastosowanie w robotyce, wojskowości, genetyce i medycynie[1].

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. 1,0 1,1 Sharone Bertsch McGrayne. A jak Asimov, B jak Bayes. „Świat Nauki”. nr. 6 (238), s. 16, czerwiec 2011. Prószyński Media. ISSN 0867-6380. 
  2. forbes.pl za PAP/es: Samosterujące samochody od... Google. 2010-10-11. [dostęp 2011-05-30].

Linki zewnętrzne[edytuj | edytuj kod]