Ocena tłumaczenia maszynowego

Istnieją rozmaite metody oceny tłumaczenia maszynowego (ang. machine translation).

Tłumaczenie „tam i z powrotem” (ang. round-trip translation)

Tłumaczenie „tam i z powrotem” (ang. round-trip translation, back translation) jest najbardziej wszechobecną metodą ewaluacji. Polega ono na ocenie silnika tłumaczenia maszynowego poprzez przetłumaczenie tekstu ze źródłowego języka na język docelowy, a następnie z powrotem na język źródłowy wykorzystując ten sam silnik.

Chociaż intuicyjnie ta metoda wydaje się być dobra, pokazano, że tłumaczenie „tam i z powrotem” jest słabym wyznacznikiem jakości. Przyczyna tej słabości jest dość intuicyjna. Metoda tłumaczenia “tam i z powrotem” nie testuje jednego systemu, ale dwa: parę językową silnika do tłumaczenia na język docelowy oraz parę językową tłumaczącą z powrotem na język docelowy. Rozważmy dwa poniższe przykłady tłumaczenia “tam i z powrotem” z języka angielskiego na włoski i portugalski (Somers 2005):

Tekst oryginalny	Select this link to look at our home page.
Przetłumaczony	Selezioni questo collegamento per guardare il nostro Home Page.
Przetłumaczony z powrotem	Selections this connection in order to watch our Home Page.

Tekst oryginalny	Tit for tat
Przetłumaczony	Melharuco para o tat
Przetłumaczony z powrotem	Tit for tat

W pierwszym przykładzie, gdzie tekst jest przetłumaczony na język włoski, a później z powrotem na angielski, mimo że angielski tekst jest znacznie zniekształcony, wersja włoska jest solidnym tłumaczeniem. W drugim przykładzie, mimo że tekst przetłumaczony z powrotem na angielski jest doskonały, tłumaczenie portugalskie nie ma żadnego sensu.

Tłumaczenie „tam i z powrotem” może być użyteczne do generowania śmiesznych wyrażeń, metoda ta jest niedoskonała, jeśli chodzi o wszelkie poważne studia jakości danych wyjściowych tłumaczenia maszynowego.

Ocena przez człowieka

W tym akapicie opisane zostaną dwa projekty, które miały znaczący wpływ na rozwój tej dziedziny lingwistyki komputerowej jaką jest tłumaczenie automatyczne:

Projekt komisji ALPAC, mający na celu ocenić postęp dokonujący się w lingwistyce komputerowej, a w szczególności w tłumaczeniu maszynowym. W wyniku raportu opublikowanego w 1966 roku, który bardzo sceptycznie odnosił się do dotychczasowych badań przeprowadzanych nad udoskonalaniem tłumaczenia maszynowego, rząd Stanów Zjednoczonych zdecydował się znacząco zmniejszyć fundusze na rozwój tej dziedziny.
Projekt „Human Language Technologies Program” agencji ARPA, w ramach którego stworzona została metodologia oceny systemów do tłumaczenia automatycznego, która używana jest do dnia dzisiejszego.

Eksperyment przeprowadzony przez ALPAC (Automatic Language Processing Advisory Committee)

Komisja ALPAC powołana została w 1964 przez rząd Stanów Zjednoczonych. Złożona była z siedmiu naukowców pod przewodnictwem Johny’ego R. Pierce’a. W raporcie przygotowanym przez komisję znaczące miejsce odgrywał eksperyment porównujący tłumaczenie stworzone przez człowieka z tłumaczeniem maszynowym. Podstawą ewaluacji ustanowiono dwa kryteria: zrozumiałość oraz wierność oryginałowi. Oceniane były tłumaczenia dokonane przez systemy do tłumaczenia automatycznego z języka rosyjskiego na język angielski. Sędziami oceniającymi poprawność tłumaczenia były odpowiednio dobrane osoby. Sędziowie dzielili się na dwie grupy:

„Jednojęzyczni” – osoby, których językiem ojczystym był angielski i które nie posiadały żadnej wiedzy o języku oryginalnym tłumaczonych tekstów – w tym wypadku rosyjskim.
„Dwujęzyczni” – osoby, których językiem ojczystym był angielski i które posiadały bardzo dobrą znajomość rosyjskiego (również terminów naukowych).

Zrozumiałość oceniana była w skali 1-9, bez odniesienia do oryginalnego zdania w języku rosyjskim. Wierność tłumaczenia natomiast oceniania była z pośrednim odniesieniem do oryginału: sędziowie otrzymywali zdanie przetłumaczone przez system oraz jego wzorcowe tłumaczenie wykonane przez człowieka. Musieli postarać się wynieść jak najwięcej informacji ze zdania przetłumaczonego przez system tłumaczenia maszynowego, a następnie ocenić, ile nowych informacji wniosło zdanie wzorcowe względem badanego tłumaczenia. Im wyższą ocenę postawili, tym gorsza była wierność tłumaczenia maszynowego. Wniesienie nowych informacji przez tłumaczenie wzorcowe oceniane było w skali 0-9. Przygotowana przez autorów eksperymentu skala zawierała dla każdej oceny opis słowny, aby ocena wydana przez sędziów była jak najbliższa rzeczywistej wartości tłumaczenia. Przykładowe opisy skali oceniania zrozumiałości:

„9 – Idealnie jasne i zrozumiałe. Czyta się jak zwykły tekst, brak jakichkolwiek błędów stylistycznych”
„5 – Ogólny sens jest zrozumiały dopiero po głębokim zastanowieniu, ale wtedy jest się pewnym, że rozumienie jest poprawne. Słaby dobór słów, groteskowa składnia, pozostawione nieprzetłumaczone słowa i tym podobne błędy tłumaczenia, jednak stanowią one tylko „szum”, z którego można wydobyć ogólny sens.”
„1 – Kompletnie niezrozumiałe. Wydaje się, że nie jest się w stanie wyłowić sensu, obojętnie jak długo by się nie zastanawiać”

Przykładowe opisy skali oceniania ilości informacji wnoszonej przez tłumaczenie wzorcowe względem ocenianego tłumaczenia:

„9 – Wnosi niesamowicie wiele nowych informacji (…) Ocena 9 powinna być zawsze przyznana kiedy tłumaczenie wzorcowe całkowicie zmienia lub odwraca znaczenie przekazane przez badane tłumaczenie”
„1 – nie wnosi nowych informacji; nowe znaczenie nie jest dodane, zrozumiałość zdania nie jest poprawiona”
„0 – wzorcowe tłumaczenie zawiera mniej informacji niż badane tłumaczenie. System tłumaczący dodał pewne znaczenia aby sprawić, żeby tekst stał się bardziej zrozumiały”

Powyżej opisana procedura ewaluacji tłumaczeń została przeprowadzona dla sześciu tłumaczeń: trzech tłumaczeń maszynowych i trzech wykonanych przez człowieka. Tłumaczone były fragmenty rosyjskiej publikacji zróżnicowane pod względem treści. W wyniku tego eksperymentu pokazano, że tłumaczenie wykonywane przez ludzi jest dużo lepszej jakości niż tłumaczenie maszynowe. Pośród różnych ocenianych tłumaczeń automatycznych znalazły się lepsze i gorsze, jednak średnio tłumaczenia te otrzymywały oceny w środku skali pomiędzy najlepszym a najgorszym możliwym tłumaczeniem.

Human Language Technologies Program prowadzony przez agencję ARPA

W ramach tego programu ARPA stworzyła metody ewaluacji systemów tłumaczenia maszynowego, które używane są do dzisiaj.

Program ewaluacji zakładał testowanie systemów tłumaczenia wykorzystujących różnorodne metody tłumaczenia: statystyczne, bazujące na regułach gramatycznych oraz wspomagane przez człowieka.

Automatyczna ocena

Miara ewaluacji danych wyjściowych tłumaczenia maszynowego jest miarą jakości tych danych. Jakość tłumaczenia jest z natury subiektywna, nie ma obiektywnego czy wymiernego „dobra”. Dlatego też zadaniem każdej miary jest przypisanie punktów jakości w taki sposób, aby korelowały z ludzkim osądem jakości. Miara powinna wysoko punktować te tłumaczenia, które i ludzie oceniliby wysoko, a nisko te, którym ludzie daliby mało punktów. Ludzki osąd jest wykorzystywany jako punkt odniesienia do oceniania automatycznych miar, jako że ludzie są odbiorcami danych wyjściowych tłumaczenia.

Korelacja między miarą a ludzkim osądem jest ogólnie przeprowadzana na dwóch poziomach. Na poziomie zdania punkty są obliczane przez miarę dla zbioru przetłumaczonych zdań, a następnie korelowane z ludzkim osądem dla tych samych zdań. Na poziomie korpusu punkty za zdania są sumowane za zarówno ludzki osąd, jak i za miarę, a następnie te sumy są korelowane. Banerjee et al. (2005) przedstawili liczby, które pokazują, że korelacja na poziomie zdań jest znacznie gorsza niż ta na poziomie korpusu (przynajmniej na ich miarach).

Nawet jeśli miara dobrze koreluje się z ludzkim osądem na jednym korpusie, nie znaczy to, że poradzi sobie z innym korpusem. Dobra wydajność miary poprzez typy tekstu albo domeny jest ważna dla możliwości wielokrotnego wykorzystania tej miary. Kolejnym ważnym czynnikiem użyteczności miary ewaluacji jest posiadanie dobrej korelacji, działającej nawet z niewielkimi ilościami danych. Turian et al. (2003) piszą, że „Każda miara oceny tłumaczenia maszynowego jest mniej solidna na krótszych tłumaczeniach” i pokazują, że zwiększając ilość danych zwiększamy niezawodność miary. Jednakże dodaję, że „…solidność na krótszych tekstach, tak krótkich jak jedno zdanie lub nawet jedna fraza, jest wysoce pożądane, ponieważ solidna miara oceny tłumaczenia maszynowego może znacznie przyspieszyć analizę badawczą danych”.

Banerjee et al. (2005) podkreślają pięć atrybutów, które powinna posiadać dobra automatyczna miara: korelacja, czułość, konsekwencja, solidność i ogólność. Każda dobra miara musi wysoce korelować z ludzkim osądem, musi być konsekwentna: dawać podobne rezultaty tego samego tłumaczenia maszynowego na podobnym tekście. Musi być czuła na różnice między systemami tłumaczenia maszynowego i solidna w tych systemach, które podobnie oceniają. Miara musi być ogólna – powinna działać z różnymi domenami tekstu, w różnych zakresach scenariuszy i zadań tłumaczenia automatycznego.

BLEU

Osobny artykuł: BLEU.

BLEU jest jedną z pierwszych miar, które wykazały wysoką korelację ludzką oceną jakości. Jest ona obecnie jedną z najpopularniejszych metod w tym polu. Jej główna idea brzmi „im bliższe tłumaczenie maszynowe jest profesjonalnemu tłumaczeniu ludzkiemu, tym jest lepsze”. Miara ta oblicza punkty za indywidualne segmenty, zwykle zdania, a następnie liczy średnią tych punktów na całym korpusie. Udowodniono, że wysoko koreluje ona z ludzkim osądem jakości na poziomie korpusu.

BLEU wykorzystuje zmodyfikowaną formę precyzji, aby porównać tłumaczenie kandydujące z wieloma nawiązującymi (wzorcowymi) tłumaczeniami. Miara modyfikuje prostą precyzję, ponieważ systemy tłumaczenia maszynowego generują więcej słów niż istnieje w tekście wzorcowym.

NIST

Miara NIST jest oparta na mierze BLEU z pewnymi przeróbkami. Podczas gdy BLEU liczy n-gramy precyzji dodając równe wagi do każdego z nich, NIST liczy również jaką wartość informacji niesie ze sobą konkretny n-gram. Czym rzadszy jest n-gram, tym większą wagę będzie miał przypisaną. Na przykład: jeśli dwugram „być może” jest poprawnie dopasowany, otrzyma on niższą wagę niż dwugram „interesujące obliczenia”, gdyż jest mniej prawdopodobne, że on wystąpi. NIST różni się od BLEU także liczeniem „kary zwięzłości”, o ile małe różnice w długości tłumaczenia nie mają tak wielkiego wpływu na cały przyznany wynik.

WER

Współczynnik błędu rozpoznawania słów (ang. WER – Word Error Rate) jest metryką, która bazuje na odległości Levensteina. Przykładowo, odległość Levensteina pomiędzy słowami „mama” i „matka” wynosi 2, ponieważ wyrazy te różnią się dwiema literami (drugie m w wyrazie „mama” zmienione na t oraz dołożone k). Różnica pomiędzy tą metryką a WER polega na tym, że metryka Levensteina określa odległość pomiędzy literami, natomiast WER opisuje odległość pomiędzy słowami. Początkowo WER był używany do ewaluacji systemów rozpoznawania mowy, jednak wykorzystuje się go również w ewaluacji tłumaczenia maszynowego. Metryka ta bazuje na obliczeniu ilości słów, które różnią się, jeśli porówna się tekst otrzymany w wyniku tłumaczenia maszynowego i wzorcowego tłumaczenia referencyjnego wykonanego przez człowieka. Nieco zmodyfikowaną metryką jest metryka PER. Określa ona współczynnik błędu rozpoznawania słów niezależny od pozycji (ang. PER: position-independent word error rate).

METEOR

Osobny artykuł: METEOR.

Metryka METEOR została stworzona, aby uzupełnić niektóre braki metryki BLEU. Metryka ta bazuje na ważonej średniej harmonicznej precyzji i odwołań. METEOR zawiera także inne cechy, których nie znajdziemy w innych metrykach. Są to na przykład: dopasowanie synonimów (metryka dopasowuje nie tylko słowa będące dosłownym tłumaczeniem, ale również wyrazy bliskoznaczne). Przykładowo, jeśli słowo „dobry” występuje w tłumaczeniu referencyjnym a słowo „niezły” występuje w ocenianym tłumaczeniu, system ewaluujący policzy to jako dobre dopasowanie. Metryka zawiera również narzędzie, które odwołuje się do formy bazowej danego słowa i dopasowuje formy podstawowe. Dodatkowym atutem tej metryki jest modularna implementacja, która pozwala na łatwe dodawanie nowo utworzonych modułów.

Bibliografia

Banerjee, S. and Lavie, A. (2005) „METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments” in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, June 2005
Church, K. and Hovy, E. (1993) „Good Applications for Crummy Machine Translation”. Machine Translation, 8 pp. 239–258
Coughlin, D. (2003) „Correlating Automated and Human Assessments of Machine Translation Quality” in MT Summit IX, New Orleans, USA pp. 23–27
Doddington, G. (2002) „Automatic evaluation of machine translation quality using n-gram cooccurrence statistics”. Proceedings of the Human Language Technology Conference (HLT), San Diego, CA pp. 128–132
Gaspari, F. (2006) „Look Who’s Translating. Impersonations, Chinese Whispers and Fun with Machine Translation on the Internet” in Proceedings of the 11th Annual Conference of the European Association of Machine Translation
Lavie, A., Sagae, K. and Jayaraman, S. (2004) „The Significance of Recall in Automatic Metrics for MT Evaluation” in Proceedings of AMTA 2004, Washington DC. September 2004
Papineni, K., Roukos, S., Ward, T., and Zhu, W. J. (2002). „BLEU: a method for automatic evaluation of machine translation” in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311–318
Somers, H. (2005) „Round-trip Translation: What Is It Good For?”
Somers, H., Gaspari, F. and Ana Niño (2006) „Detecting Inappropriate Use of Free Online Machine Translation by Language Students – A Specialnd-trip transl Case of Plagiarism Detection”. Proceedings of the 11th Annual Conference of the European Association of Machine Translation, Oslo University (Norway) pp. 41–48
ALPAC (1966) „Languages and machines: computers in translation and linguistics”. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. Washington, D.C.: National Academy of Sciences, National Research Council, 1966. (Publication 1416.)
Turian, J., Shen, L. and Melamed, I. D. (2003) „Evaluation of Machine Translation and its Evaluation”. Proceedings of the MT Summit IX, New Orleans, USA, 2003 pp. 386–393
White, J., O’Connell, T. and O’Mara, F. (1994) „The ARPA MT Evaluation Methodologies: Evolution, Lessons, and Future Approaches”. Proceedings of the 1st Conference of the Association for Machine Translation in the Americas. Columbia, MD pp. 193–205
White, J. (1995) „Approaches to Black Box MT Evaluation”. Proceedings of MT Summit V

Linki zewnętrzne

Machine Translation Archive: Subject Index: Publications after 2000. mt-archive.info. [zarchiwizowane z tego adresu (2010-02-06)]. (see Evaluation subheading)
Machine Translation Archive: Subject Index: Publications prior to 2000. mt-archive.info. [zarchiwizowane z tego adresu (2009-06-21)]. (see Evaluation subheading)
Language and Machines – ALPAC Report (see Evaluation subheading)