Naiwny klasyfikator bayesowski

Naiwny klasyfikator bayesowski, naiwny klasyfikator Bayesa – prosty klasyfikator probabilistyczny. Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predyktorów (zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywa się je naiwnymi. Bardziej opisowe jest określenie – „model cech niezależnych”. Ponadto model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa.

W zależności od rodzaju dokładności modelu prawdopodobieństwa, naiwne klasyfikatory bayesowskie można skutecznie „uczyć” w trybie uczenia z nadzorem. W wielu praktycznych aplikacjach, estymacja parametru dla naiwnych modeli Bayesa używa metody maksymalnego prawdopodobieństwa a posteriori; inaczej mówiąc, można pracować z naiwnym modelem Bayesa bez wierzenia w twierdzenie Bayesa albo używania jakichś metod Bayesa.

Pomimo ich naiwnego projektowania i bardzo uproszczonych założeń, w wielu rzeczywistych sytuacjach naiwne klasyfikatory Bayesa często pracują dużo lepiej, niż można było tego oczekiwać.

Naiwny model probabilistyczny Bayesa[edytuj | edytuj kod]

Model prawdopodobieństwa dla klasyfikatora jest modelem warunkowym

p(C\vert F_{1},\dots ,F_{n})

przez zmienną zależną klasy $C$ z niewielu rezultatów albo „klas”, zależnych od kilku opisujących zmiennych $F_{1}$ do $F_{n}.$ Problem pojawia się, gdy liczba cech $n$ jest duża lub gdy cecha może przyjmować dużą liczbę wartości. Wtedy opieranie się na modelu tablic prawdopodobieństw jest niewykonalne. Dlatego też inaczej formułuje się taki model, by był bardziej przystępny.

Korzystając z twierdzenia Bayesa:

p(C\vert F_{1},\dots ,F_{n})={\frac {p(C)\ p(F_{1},\dots ,F_{n}\vert C)}{p(F_{1},\dots ,F_{n})}}.

W praktyce interesujący jest tylko licznik ułamka, bo mianownik nie zależy od $C$ i wartości cechy $F_{i}$ są dane. Mianownik jest więc stały.

Licznik ułamka jest równoważny do łącznego modelu prawdopodobieństwa

p(C,F_{1},\dots ,F_{n}),

który można zapisać, wykorzystując prawdopodobieństwo warunkowe

{\begin{aligned}&p(C,F_{1},\dots ,F_{n})\\[1ex]={}&p(C)\ p(F_{1},\dots ,F_{n}\vert C)\\[1ex]={}&p(C)\ p(F_{1}\vert C)\ p(F_{2},\dots ,F_{n}\vert C,F_{1})\\[1ex]={}&p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3},\dots ,F_{n}\vert C,F_{1},F_{2})\\[1ex]={}&p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3}\vert C,F_{1},F_{2})\ p(F_{4},\dots ,F_{n}\vert C,F_{1},F_{2},F_{3})\end{aligned}}

i tak dalej. Włącza się teraz „naiwną” warunkową zależność. Zakładając, że każda cecha $F_{i}$ jest warunkowo niezależna od każdej innej cechy

F_{j}

dla

j\neq i.

Oznacza to

p(F_{i}\vert C,F_{j})=p(F_{i}\vert C),

więc model można wyrazić jako

{\begin{aligned}p(C,F_{1},\dots ,F_{n})&=p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C)\ p(F_{3}\vert C)\dots \\[1ex]&=p(C)\prod _{i=1}^{n}p(F_{i}\vert C).\end{aligned}}

Oznacza to, że pod powyższymi niezależnymi założeniami, warunkowe rozmieszczenie nad klasą zmiennych $C$ można zapisać

p(C\vert F_{1},\dots ,F_{n})={\frac {1}{Z}}p(C)\prod _{i=1}^{n}p(F_{i}\vert C),

gdzie $Z$ jest współczynnikiem skalowania zależnym wyłącznie od $F_{1},\dots ,F_{n}.$

Modele tej formy są łatwiejsze do zrealizowania, gdy rozłoży się je na czynniki zwane klasą „prior” $p(C)$ i niezależny rozkład prawdopodobieństwa $p(F_{i}\vert C).$ Jeśli są klasy $k$ i jeśli model dla $p(F_{i})$ może być wyrażony przez parametr $r,$ wtedy odpowiadający naiwny model Bayesa ma $(k-1)+nrk$ parametrów. W praktyce często $k=2$ (klasyfikacja binarna) i $r=1$ (zmienna Bernouliego jako cecha), wtedy całkowita liczba parametrów naiwnego modelu Bayesa to $2n+1,$ gdzie $n$ jest liczbą binarnych użytych cech.

Estymacja parametru[edytuj | edytuj kod]

W przypadku uczenia z nadzorem, chcemy ocenić parametry probabilistycznego modelu. Z powodu założenia niezależnych cech, wystarczy ocenić klasę poprzednią i zależną cechę modelu niezależnie, wykorzystując metodę maksimum prawdopodobieństwa a posteriori (MAP), wnioskowanie Bayesa lub inną parametryczną procedurę estymacji.

Konstrukcja klasyfikatora z modelu probabilistycznego[edytuj | edytuj kod]

Dotychczasowe omówienie problemu wyprowadziło model niezależnych cech, które są naiwnym probabilistycznym modelem Bayesa. Naiwny klasyfikator bayesowski łączy ten model z regułą decyzyjną. Jedna, ogólna reguła ma wydobyć hipotezę najbardziej prawdopodobną. Odpowiadający klasyfikator jest funkcją $\mathrm {classify} ,$ zdefiniowaną

\mathrm {classify} (f_{1},\dots ,f_{n})=\mathop {\mathrm {arg\ max} } _{c}\ p(C=c)\prod _{i=1}^{n}p(F_{i}=f_{i}\vert C=c).

Omówienie[edytuj | edytuj kod]

Naiwny klasyfikator bayesowski ma wiele własności, które okazują się zaskakująco przydatne w praktyce, pomimo faktu, że założenia niezależności często są naruszone. Jak wszystkie probabilistyczne klasyfikatory, wykorzystujące regułą decyzyjną MAP, klasyfikacja jest tak długo poprawna, jak długo poprawna klasa jest bardziej prawdopodobna od innych (prawdopodobieństwa poszczególnych klas nie muszą być oceniane zbyt dokładnie). Inaczej mówiąc, klasyfikator jest wystarczająco mocny, by zignorować poważne niedociągnięcia naiwnego probabilistycznego modelu.

Przykład – klasyfikacja dokumentu[edytuj | edytuj kod]

Przedstawiony zostawnie tu problem klasyfikacji dokumentów metodą naiwnego klasyfikatora Bayesa. Rozważać będziemy klasyfikację poczty email pod względem zawartości i oceniać czy poszczególne wiadomości są chcianą pocztą czy też spamem. Wyobraźmy sobie, że dokumenty są przypisane do pewnej liczby klas dokumentów, które mogą być modelowane jako komplety słów, gdzie (niezależne) prawdopodobieństwo, że i-te słowo danego dokumentu zdarza się w dokumencie klasy C zapisujemy, jako

p(w_{i}\vert C).

Zakładamy, że prawdopodobieństwo wystąpienia słowa w dokumencie jest niezależne od długości dokumentu lub też, że wszystkie dokumenty mają tę samą długość.

Wtedy prawdopodobieństwo danego dokumentu $D,$ klasy $C$