N-gram

N-gram – model językowy stosowany w rozpoznawaniu mowy^[1]^[2]^[3]. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do fonemów (a także do zastosowań niezwiązanych z lingwistyką, jak np. biologia obliczeniowa).

Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych – korpusu. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości n w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia (1-gramy, unigramy), dwójki (2-gramy, bigramy) i trójki (3-gramy, trigramy). Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.

Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na prawdopodobieństwa poprzez normalizację. Umożliwia to predykcje kolejnego elementu na podstawie sekwencji n dotychczasowych. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby^[4]. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk^[1]^[3].

Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę n można tym samym schematem otrzymywać zarówno modele niewymagające wielu danych treningowych, ale niedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych, ale oferujące duże możliwości predykcyjne.

Przypisy

↑ ^a ^b Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey.
↑ B. Ziółko, D. Skurzok, „N-grams model for Polish”, Speech and Language Technologies, Book 2, InTech Publisher, 2011.
↑ ^a ^b Przetwarzanie mowy (B. Ziółko, M. Ziółko, „Przetwarzanie mowy”, Wydawnictwa AGH, 2011.).
↑ Model N-gramowy języka polskiego Zespołu Przetwarzania Sygnałów AGH.

[Jurafsky-1] Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey.

[B_Ziółko_D_Skurzok_N_grams-2] B. Ziółko, D. Skurzok, „N-grams model for Polish”, Speech and Language Technologies, Book 2, InTech Publisher, 2011.

[przetwarzaniemowy-3] Przetwarzanie mowy (B. Ziółko, M. Ziółko, „Przetwarzanie mowy”, Wydawnictwa AGH, 2011.).

[dsp.agh-resources-ngram-4] Model N-gramowy języka polskiego Zespołu Przetwarzania Sygnałów AGH.

[1]

[2]

[3]

[4]