Tłumacz Google

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania
Tłumacz Google
Tłumacz Google
Komercyjna nie
Data powstania 28 kwietnia 2006
Autor Google
Właściciel Google
Rejestracja opcjonalna (po zalogowaniu się na konto Google tłumacz zapisuje historię wyszukiwań na koncie oraz pozwala na sprawdzanie tłumaczeń)
Wersje językowe 103 języki (w tym dwie odmiany chińskiego), w przyszłości 117
Strona internetowa

Tłumacz Google (ang. Google Translate) – darmowy serwis internetowy Google umożliwiający tłumaczenie tekstów, plików tekstowych, stron internetowych, mowy, zdjęć i wideo w czasie rzeczywistym na ponad 100 języków. W przypadku wpisania tekstu serwis tłumaczy go w czasie rzeczywistym (bez potrzeby klikania w przycisk „Tłumacz”). Po wpisaniu w okienko translatora pojedynczego słowa działa on jak słownik – podając zwykle kilka lub kilkanaście propozycji tłumaczenia. Codziennie z serwisu korzysta 200 milionów osób[1].

Języki obecnie możliwe do tłumaczenia to: afrikaans, albański, amharski, angielski, arabski, azerski, baskijski, bengalski, białoruski, birmański, bośniacki, bułgarski, cebuański, chiński, chorwacki, czeski, cziczewa, duński, esperanto, estoński, filipiński, fiński, francuski, galicyjski, grecki, gruziński, gudżarati, hausa, hawajski, hebrajski, hindi, hiszpański, hmong, igbo, indonezyjski, irlandzki, islandzki, japoński, jawajski, jidysz, joruba, kannada, kataloński, kazachski, khmerski, kirgiski, koreański, korsykański, kreolski haitański, kurdyjski kurmandżi, laotański, litewski, luksemburski, łacina, łotewski, macedoński, malajalam, malajski, malgaski, maltański, maoryski, marathi, mongolski, nepalski, niderlandzki, niemiecki, norweski, ormiański, paszto, pendżabski, perski, polski, portugalski, rosyjski, rumuński, samoański, serbski, shona, sindhi, słowacki, słoweński, somalijski, sotho suahili, sundajski, szkocki gaelicki, szwedzki, tadżycki, tajski, tamilski, telugu, turecki, ukraiński, urdu, uzbecki, walijski, węgierski, wietnamski, włoski, xhosa, zachodniofryzyjski oraz zulu.

Języki, które mają zostać dodane w przyszłości, to: asamski, czirokeski, dzongkha, guarani, kantoński, kurdyjski sorani, orija, romansz, ruanda-rundi, tatarski, turkmeński, tybetański, ujgurski oraz wolof.

Aplikację można obsługiwać przy pomocy Google Translate API. Dostępna jest na telefony z systemem Android i iOS.

Metoda translacji[edytuj | edytuj kod]

W kwietniu 2006 r. uruchomiono Tłumacz Google ze statycznym mechanizmem tłumaczenia maszynowego[2].

Działanie Tłumacza Google nie opiera się na stosowaniu prawideł gramatycznych – jego algorytmy są oparte na analizie statystycznej, a nie na tradycyjnej analizie wykorzystującej reguły. Oryginalny twórca systemu, Franz Josef Och, skrytykował skuteczność algorytmów opartych na regułach, zalecając stosowanie metod statystycznych. Aplikacja wykorzystuje metodę zwaną statystycznym tłumaczeniem maszynowym, opartą na badaniach Och, który wygrał konkurs DARPA na tłumaczenie maszynowe w 2003 roku. Och był szefem grupy tłumaczeń maszynowych Google, aż do momentu dołączenia do Human Longevity, Inc. Lipiec 2014 r.[3]

Według Och'a solidna podstawa do stworzenia użytecznego systemu statystycznego dla nowej pary języków od podstaw powinna składać się z dwujęzycznego korpusu tekstowego (lub kolekcji równoległej) o objętości ponad 150-200 milionów słów i dwóch jednojęzycznych korpusów, z których każdy powinien zawierać ponad miliarda słów. Modele statystyczne z tych danych są następnie wykorzystywane do tłumaczenia między językami.

Do zebrania tak ogromnej ilości danych językowych Google wykorzystał transkrypty Narodów Zjednoczonych i Parlamentu Europejskiego[4][5].

Tłumacz Google nie tłumaczy bezpośrednio z jednego języka na inny (L1 → L2). W większości przypadków treści są tłumaczone najpierw na angielski, a dopiero potem na język docelowy (L1 → EN → L2).

Przy generowaniu tłumaczenia Tłumacz Google szuka wzorców w setkach milionów dokumentów, aby znaleźć najtrafniejsze odwzorowanie. Dzięki mechanizmowi wykrywającemu wzorce w dokumentach, które zostały już przełożone przez prawdziwych tłumaczy, Tłumacz Google może inteligentnie domyślić się, jak powinno brzmieć poprawne tłumaczenie.

Przed październikiem 2007 r. tłumaczenia między językami innymi niż arabski, chiński i rosyjski działały w oparciu o SYSTRAN – silnik oprogramowania, który do tej pory jest stosowany w niektórych usługach tłumaczeniowych, takich jak Babel Fish (obecnie zamknięte). Od października 2007 r. Tłumacz Google używa zastrzeżonej technologii wewnętrznej opartej na statystycznym tłumaczeniu maszynowym[6][7].

GNMT[edytuj | edytuj kod]

We wrześniu 2016 r. zespół badawczy Google pod kierownictwem inżyniera oprogramowania Harolda Gilchrista ogłosił opracowanie systemu GNMT w celu zwiększenia płynności i dokładności Tłumacza Google[8][9], a w listopadzie ogłosił, że aplikacja przełączy się na GNMT.

System ten wykorzystuje dużą, sztuczną sieć neuronową zdolną do głębokiego uczenia się[10], a dokładniej długoterminowe sieci pamięci krótkoterminowych[11][12][13][14][15]. Dzięki wykorzystaniu metody tłumaczenia maszynowego opartą na próbkach (EBMT), w której system "uczy się z milionów przykładów", GNMT pozwala poprawić jakość tłumaczenia[11]. Technika ta umożliwia przekładanie "całych zdań naraz, a nie kawałek po kawałku. Zwraca uwagę na szerszy kontekst, aby znaleźć najbardziej odpowiednie tłumaczenia, które następnie przestawia i dostosowuje tak, aby przypominały ludzką mowę i używały właściwej gramatyki". Zaproponowana przez GNMT architektura została po raz pierwszy przetestowana na ponad stu językach obsługiwanych przez Tłumacza Google. Dzięki kompleksowej strukturze "system z czasem uczy się tworzyć lepsze, bardziej naturalne tłumaczenia". Sieć GNMT jest zdolna do tłumaczenia maszynowego międzyjęzykowego, która koduje "semantykę zdania, a nie po prostu zapamiętuje frazę do tłumaczenia", a system nie wymyślił własnego uniwersalnego języka, ale używa "części wspólnej znalezionej w wielu językach"[16].GNMT został po raz pierwszy włączony dla ośmiu języków: angielskiego, chińskiego, francuskiego, niemieckiego, japońskiego, koreańskiego, portugalskiego, hiszpańskiego i tureckiego[17]. W marcu 2017 r. udostępniono języki hindi, rosyjski, polski[18] i wietnamski[19], a następnie języki indonezyjski, bengalski, gudżarati, kannada, malajalam, marathi, pendżabski.

GNMT daje możliwość tłumaczenia bezpośrednio z jednego języka na inny (L1 → L2), co jest poprawą w stosunku do wcześniejszych wersji Tłumacza Google, które najpierw tłumaczyły na język angielski, a dopiero potem na język docelowy (L1 → EN → L2). System GNMT ma również możliwość tłumaczenia Zero-Shot – tłumaczenia pomiędzy parą języków (na przykład z japońskiego na koreański), z którą "system nie miał wcześniej do czynienia"[20].

Przypisy[edytuj | edytuj kod]

  1. Stephen Shankland: Google Translate now serves 200 million people daily. [dostęp 2016-10-13].
  2. Statistical machine translation live, „Research Blog” [dostęp 2018-05-01] (ang.).
  3. Franz Och, Ph.D., Expert in Machine Learning and Machine Translation, Joins Human Longevity, Inc. as Chief Data Scientist – Human Longevity, Inc., www.humanlongevity.com [dostęp 2018-05-01] (ang.).
  4. Tim Adams, Google Translate and the battle for accurate translations by computer, the Guardian, 19 grudnia 2010 [dostęp 2018-05-01] (ang.).
  5. Adam Tanner, Google seeks world of instant translations, „U.S.” [dostęp 2018-05-01] (ang.).
  6. Google Switches to Its Own Translation System, „Google Operating System” [dostęp 2018-05-01].
  7. Google Translate Drops Systran For Home Brewed Translation - Search Engine Land, „Search Engine Land”, 23 października 2007 [dostęp 2018-05-01] (ang.).
  8. Found in translation: More accurate, fluent sentences in Google Translate, „Google”, 15 listopada 2016 [dostęp 2018-05-01] (ang.).
  9. A Neural Network for Machine Translation, at Production Scale, „Research Blog” [dostęp 2018-05-01] (ang.).
  10. Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System, „Research Blog” [dostęp 2018-05-01] (ang.).
  11. a b Tłumacz Google z neuronowym silnikiem – by chińszczyznę było łatwiej pojąć, „dobreprogramy.pl”, 29 września 2016 [dostęp 2017-10-17] (pol.).
  12. Sepp Hochreiter, Jürgen Schmidhuber, Long Short-term Memory, „Neural computation”, 9, 1997, s. 1735–80, DOI10.1162/neco.1997.9.8.1735 [dostęp 2018-05-01].
  13. Felix A. Gers, Jürgen Schmidhuber, Fred Cummins, Learning to Forget: Continual Prediction with LSTM, „NEURAL COMPUTATION”, 12, 1999, s. 2451––2471 [dostęp 2018-05-01].
  14. Yonghui Wu i inni, Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, „arXiv:1609.08144 [cs]”, 26 września 2016, arXiv:1609.08144 [dostęp 2018-05-01].
  15. An Infusion of AI Makes Google Translate More Powerful Than Ever, „WIRED” [dostęp 2018-05-01] (ang.).
  16. Chris McDonald, Ok slow down., Chris McDonald, 7 stycznia 2017 [dostęp 2018-05-01].
  17. A Neural Network for Machine Translation, at Production Scale, „Research Blog” [dostęp 2018-05-01] (ang.).
  18. Tłumacz Google z lepszą obsługą polskiego dzięki sieciom neuronowym, „dobreprogramy.pl”, 21 marca 2017 [dostęp 2017-10-17] (pol.).
  19. Google Translate now uses neural machine translation for some languages, „Android Police”, 6 marca 2017 [dostęp 2018-05-01] (ang.).
  20. Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System, „Research Blog” [dostęp 2018-05-01] (ang.).