Funkcja aktywacji

Funkcja aktywacji – pojęcie używane w sztucznej inteligencji do określenia funkcji, według której obliczana jest wartość wyjścia neuronów sieci neuronowej.

Po agregacji danych wejściowych z uwzględnieniem wag powstaje sygnał sumarycznego pobudzenia. Rola funkcji aktywacji polega na tym, że musi ona określić sposób obliczania wartości sygnału wyjściowego neuronu na podstawie wartości tego sumarycznego pobudzenia^[1].

W literaturze rozważano wiele różnych propozycji funkcji aktywacji, jednak do powszechnego użytku weszły właściwie cztery z nich: funkcja liniowa (neuron liniowy), funkcja sigmoidalna (neuron sigmoidalny), funkcja tangensoidalna (dokładnie jest to funkcja tangens hiperboliczny, ale skrótowo mówi się właśnie neuron tangensoidalny) oraz funkcja Gaussa (neuron radialny)^[1].

Do najczęściej używanych funkcji aktywacji należą:

Funkcja aktywacji	Wzór matematyczny	Różniczkowalna	Uwagi
Funkcja liniowa	$y(x)=ax+b$		Funkcja nieograniczona Z reguły $b=0$
Jednostronnie obcięta funkcja liniowa	$y(x)=\left\{{\begin{matrix}0&{\text{dla}}&x<0\\x&{\text{dla}}&x\geqslant 0\end{matrix}}\right.$	(oprócz punktu $x=0$ )	Brak górnej granicy
Obcięta funkcja liniowa	$y(x)=\left\{{\begin{matrix}-1&{\text{dla}}&x<-1\\x&{\text{dla}}&-1\leqslant x\leqslant 1\\1&{\text{dla}}&x>1\end{matrix}}\right.$	(oprócz punktów $x=1$ i $x=-1$ )	Przedziałami liniowa
Funkcja progowa unipolarna	$y(x)=\left\{{\begin{matrix}0&{\text{dla}}&x<a\\1&{\text{dla}}&x\geqslant a\end{matrix}}\right.$		a – zadana wartość progowa Z reguły $a=0$ Taką funkcję aktywacji $(a=0)$ zastosowali w swojej pracy jako matematyczny model neuronu Warren McCulloch i Walter Pitts
Funkcja progowa bipolarna	$y(x)=\left\{{\begin{matrix}-1&{\text{dla}}&x<a\\1&{\text{dla}}&x\geqslant a\end{matrix}}\right.$		a – zadana wartość progowa Z reguły $a=0$
Sigmoidalna funkcja unipolarna	$y(x)={\frac {1}{1+e^{-\beta x}}}$		Z reguły $\beta \in \left(0,1\right]$ Gdy $\beta \to \infty ,$ funkcja przechodzi w progową unipolarną funkcję aktywacji
Sigmoidalna funkcja bipolarna (tangens hiperboliczny)	$y(x)={\frac {2}{1+e^{-\beta x}}}-1={\frac {1-e^{-\beta x}}{1+e^{-\beta x}}}$		Z reguły $\beta \in \left(0,1\right].$ Gdy $\beta \to \infty ,$ funkcja przechodzi w progową bipolarną funkcję aktywacji
Funkcja Gaussa	$y(x)=ae^{-{\frac {(x-b)^{2}}{2c^{2}}}}$		$a,b,c>0$ e – liczba Eulera
Znormalizowana funkcja wykładnicza (Softmax)	$\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}$		Prawdopodobieństwo zawsze sumuje się do jedności: ${\sum _{k=1}^{K}\sigma (\mathbf {z} )_{k}}=1$ e – liczba Eulera K - szerokość wektorów wejściowego i wyjściowego Stosowana głównie w najwyższej warstwie klasyfikatorów, w celu obliczenia prawdopodobieństwa przynależności wektora wejściowego z do każdej z K klas wyjściowych

Przypisy[edytuj | edytuj kod]

↑ ^a ^b Ryszard Tadeusiewicz, Maciej Szaleniec: Leksykon sieci neuronowych. s. 34. ISBN 978-83-63270-10-0.

[leksykon-1] Ryszard Tadeusiewicz, Maciej Szaleniec: Leksykon sieci neuronowych. s. 34. ISBN 978-83-63270-10-0.

[1]