Perceptron

Perceptron – najprostsza sieć neuronowa, składająca się z jednego bądź wielu niezależnych neuronów McCullocha-Pittsa, implementująca algorytm uczenia nadzorowanego klasyfikatorów binarnych. Perceptron jest funkcją, która potrafi określić przynależność parametrów wejściowych do jednej z dwóch klas, poprzez wskazanie czy coś należy czy nie do pierwszej klasy. Może być wykorzystywany tylko do klasyfikowania zbiorów liniowo separowalnych^[1]. Aby móc testować przynależność do więcej niż dwóch klas, należy użyć perceptronu z większą ilością neuronów, w którym klasy zakodowane są jako wyjścia perceptronu (dla danych testowych), w postaci bitów.

Zasada działania

Działanie perceptronu polega na klasyfikowaniu danych pojawiających się na wejściu i ustawianiu stosownie do tego wartości wyjścia. Przed używaniem perceptron należy wytrenować, podając mu przykładowe dane na wejście i modyfikując w odpowiedni sposób wagi wejść i połączeń między warstwami neuronów, tak aby wynik na wyjściu przybierał pożądane wartości. Perceptrony mogą klasyfikować dane na zbiory, które są liniowo separowalne. Własność ta uniemożliwia na przykład wytrenowanie złożonego z jednego neuronu perceptronu, który wykonywałby logiczną operację XOR na wartościach wejść^[1]. Z matematycznego punktu widzenia wagi perceptronu tworzą wektor normalny, który określa prostą (w przypadku dwóch wejść) lub hiperpłaszczyznę decyzyjną^[2]. Trenowanie perceptronu to dopasowanie tej hiperpłaszczyzny do danych wejściowych, aby mógł wskazywać czy punkt należy lub nie należy do zbioru wskazywanego przez hiperpłaszczyznę. Dlatego tak ważne jest, aby dane były liniowo separowalne, inaczej dopasowanie do danych będzie niemożliwe.

Wyjście perceptronu obliczamy za pomocą wzoru:

y=f(\sum _{i=1}^{m}w_{i}x_{i}+b)

,

gdzie:

w_{i}

– waga,

x_{i}

– wejście,

f

– funkcja aktywacji,

y

– wyjście,

m

– liczba wejść,

b

– stała wartość (ang. bias).

W przypadku oryginalnego perceptronu, jako funkcje aktywacji, stosowano funkcję skokową. Dlatego wyjście mogło wynosić $1$ , gdy dane wejściowe należały do zbioru, lub $0$ , gdy nie należały do tego zbioru. Można jednak stosować inne funkcje ciągłe w zakresie $\langle {0,1}\rangle$ np. funkcję sigmoidalną.

Historia

Pojęcie perceptronu zostało wprowadzone przez Franka Rosenblatta w roku 1958^[3]. Perceptron zbudowany przez niego wraz z Charlesem Wightmanem był częściowo elektromechanicznym, częściowo elektronicznym urządzeniem, którego przeznaczeniem było rozpoznawanie znaków alfanumerycznych. Innowacją było tu zastosowanie procesu uczenia się jako metody programowania systemu. W roku 1969 Marvin Minsky i Seymour Papert wykazali ograniczenia perceptronów, co spowodowało długotrwały impas w pracach nad sztucznymi sieciami neuronowymi^[1].

W Polsce pierwszą osobą, która skonstruowała perceptron z tranzystorów, był Jacek Karpiński. Jego sieć neuronowa rozpoznawała otoczenie za pomocą kamery i potrafiła się uczyć. Był to drugi taki perceptron na świecie^[4].

Ograniczenia perceptronu

Jeśli potraktujemy wejście $X$ oraz wyjście $Y$ jako wektory liczb rzeczywistych, to warstwa neuronów zachowuje się jako macierz $N{:}$

Y=NX.

Działanie każdej kolejnej warstwy można przedstawić jako kolejne mnożenie przez pewną macierz:

Y=N_{5}N_{4}N_{3}N_{2}N_{1}X.

Wszystkie te mnożenia można zastąpić mnożeniem przez jedną macierz:

N^{*}=N_{5}N_{4}N_{3}N_{2}N_{1},

Y=N^{*}X.

A zatem sieć perceptronowa o dowolnie wielu warstwach potrafi wykonywać tylko te operacje, które potrafi wykonać sieć złożona z jednej warstwy neuronów – a jest to bardzo mało. Nie znaczy to jednak, że wielowarstwowe perceptrony są pozbawione sensu – chociaż już działający perceptron wielowarstwowy można zastąpić jednowarstwowym, to sposób w jaki taka sieć się uczy, jest zupełnie inny.

Sytuacja zmienia się całkowicie jeśli po każdej warstwie wstawimy jakąś funkcję nieliniową, taką jak: