Dopasowanie wyrazów

Dopasowanie wyrazów – aspekt tłumaczenia statystycznego, zadanie polegające na łączeniu odpowiadających sobie słów między parą zdań, które stanowią wzajemne tłumaczenie. Teksty mogą być elementami korpusu równoległego, uprzednio dopasowanego na poziomie zdań. Wynikiem procesu jest macierz dopasowania wyrazów o wymiarze $m*l,$ gdzie $m$ i $l$ oznaczają ilości słów w odpowiadających sobie zdaniach. Otrzymana macierz stanowi graficzną reprezentację powiązań między wyrazami zdań.

Przykład[edytuj | edytuj kod]

Jest to dopasowanie wyrazów dla tłumaczenia z języka francuskiego na angielski. Powyższy przypadek ma niski poziom komplikacji: jednemu wyrazowi francuskiemu przyporządkowany jest jeden wyraz angielski.

Zastosowanie[edytuj | edytuj kod]

Dopasowania wyrazów wykorzystywane są między innymi w:

Tłumaczeniu statystycznym
Ujednoznacznianiu znaczenia słów
Leksykografii bilingwalnej
Uczeniu reguł transferu dla tłumaczenia automatycznego
Tłumaczeniu maszynowym opartym na przykładach (EBMT)

Algorytmika[edytuj | edytuj kod]

Algorytmy realizujące zadanie dopasowania wyrazów określa się mianem statystycznych modeli dopasowań. Wykorzystują one prawdopodobieństwo, które określa trafność tłumaczenia. Wartości dla wszystkich propozycji sumują się do jedynki i stanowią pewien rozkład prawdopodobieństwa. Proste wersje algorytmów bazują na związkach między pojedynczymi wyrazami, jednakże w ogólnym przypadku powiązania mogą mieć różny poziom komplikacji (0:1, 1:0, 1:1, 1:n). Z tego powodu w rozwiniętych modelach powiązania tworzy się między frazami, które określa się mianem cept (pewien koncept reprezentowany przez jedno lub więcej słów). Duża część powstałych modeli bazuje na piątce stworzonej przez firmę IBM. Każdy model posiada parametry wpływające na wynik dopasowania, których wartości oblicza się w procesie zwanym uczeniem modelu (np. Algorytm EM). Modele wyższe wykorzystują wyniki działania modeli niższych do określenia swoich parametrów.

Modele opracowane przez firmę IBM:

Model 1 – pozycja wyrazu w zdaniu nie wpływa na prawdopodobieństwo dopasowania
Model 2 – bierze pod uwagę położenie wyrazów w zdaniu
Model 3 – uwzględnia płodność słów
Model 4 – wprowadza zależność od dopasowań poprzednich wyrazów
Model 5 – wersja modelu poprzedniego, pozbawiona strat w rozkładzie prawdopodobieństwa

Inne modele:

HMM (Hidden Markov Model), autor: Stephen Vogel
Model 6, autor: Franz-Joseph Och

Bibliografia[edytuj | edytuj kod]

The Mathematics of Statistical Machine Translation. acl.ldc.upenn.edu. [zarchiwizowane z tego adresu (2009-04-24)].: Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer (1993) Association for Computational Linguistics, 19(2), 263-311.
A Systematic Comparison of Various Statistical Alignment Models: Franz Josef Och, Hermann Ney (2003) Association for Computational Linguistics, 29(1), 19-51.