Mechanizm uwagi (uczenie maszynowe)

Mechanizm uwagi – mechanizm uczenia maszynowego symulujący działanie ludzkiej uwagi poprzez przypisywanie różnych poziomów ważności różnym słowom w zdaniu^[1]. Mechanizm nadaje wagę każdemu słowu, obliczając „miękkie” wagi dla numerycznej reprezentacji słowa, zwanej jego osadzeniem (ang. embedding), w określonym oknie kontekstu (części zdania). Obliczanie tych wag może odbywać się jednocześnie w modelach zwanych transformatorami lub pojedynczo w modelach zwanych rekurencyjnymi sieciami neuronowymi. W przeciwieństwie do „twardych” wag, z góry określonych i stałych podczas treningu, „miękkie” wagi mogą dostosowywać się i zmieniać przy każdym użyciu modelu.

Mechanizm został rozwinięty w odpowiedzi na słabe strony wykorzystania informacji pochodzących z ukrytych stanów rekurencyjnych sieci neuronowych. Rekurencyjne sieci neuronowe faworyzują nowsze informacje zawarte w słowach na końcu zdania, podczas gdy oczekuje się, że informacje znajdujące się wcześniej w zdaniu będą tłumione. Uwaga pozwala na obliczenie ukrytej reprezentacji tokenu równego dostępu do dowolnej części zdania bezpośrednio, a nie tylko poprzez poprzedni stan ukryty^[2].

Przypisy[edytuj | edytuj kod]

↑ ZhaoyangZ. Niu ZhaoyangZ., GuoqiangG. Zhong GuoqiangG., HuiH. Yu HuiH., A review on the attention mechanism of deep learning, „Neurocomputing”, 452, 2021, s. 48–62, DOI: 10.1016/j.neucom.2021.03.091 [dostęp 2024-05-26] (ang.).
↑ AshishA. Vaswani AshishA. i inni, Attention Is All You Need, [w:] arXiv, 2017, DOI: 10.48550/ARXIV.1706.03762, arXiv:1706.03762 .

[1] ZhaoyangZ. Niu ZhaoyangZ., GuoqiangG. Zhong GuoqiangG., HuiH. Yu HuiH., A review on the attention mechanism of deep learning, „Neurocomputing”, 452, 2021, s. 48–62, DOI: 10.1016/j.neucom.2021.03.091 [dostęp 2024-05-26] (ang.).

[2] AshishA. Vaswani AshishA. i inni, Attention Is All You Need, [w:] arXiv, 2017, DOI: 10.48550/ARXIV.1706.03762, arXiv:1706.03762 .

[1]

[2]