Przejdź do zawartości

Mechanizm uwagi (uczenie maszynowe)

Z Wikipedii, wolnej encyklopedii

Mechanizm uwagi – mechanizm uczenia maszynowego symulujący działanie ludzkiej uwagi poprzez przypisywanie różnych poziomów ważności różnym słowom w zdaniu[1]. Mechanizm nadaje wagę każdemu słowu, obliczając „miękkie” wagi dla numerycznej reprezentacji słowa, zwanej jego osadzeniem (ang. embedding), w określonym oknie kontekstu (części zdania). Obliczanie tych wag może odbywać się jednocześnie w modelach zwanych transformatorami lub pojedynczo w modelach zwanych rekurencyjnymi sieciami neuronowymi. W przeciwieństwie do „twardych” wag, z góry określonych i stałych podczas treningu, „miękkie” wagi mogą dostosowywać się i zmieniać przy każdym użyciu modelu.

Mechanizm został rozwinięty w odpowiedzi na słabe strony wykorzystania informacji pochodzących z ukrytych stanów rekurencyjnych sieci neuronowych. Rekurencyjne sieci neuronowe faworyzują nowsze informacje zawarte w słowach na końcu zdania, podczas gdy oczekuje się, że informacje znajdujące się wcześniej w zdaniu będą tłumione. Uwaga pozwala na obliczenie ukrytej reprezentacji tokenu równego dostępu do dowolnej części zdania bezpośrednio, a nie tylko poprzez poprzedni stan ukryty[2].

Przypisy[edytuj | edytuj kod]

  1. Zhaoyang Niu, Guoqiang Zhong, Hui Yu, A review on the attention mechanism of deep learning, „Neurocomputing”, 452, 2021, s. 48–62, DOI10.1016/j.neucom.2021.03.091 [dostęp 2024-05-26] (ang.).
  2. Ashish Vaswani i inni, Attention Is All You Need, [w:] arXiv, 2017, DOI10.48550/ARXIV.1706.03762, arXiv:1706.03762.