Tłumaczenie maszynowe języków migowych

Z Wikipedii, wolnej encyklopedii

Tłumaczenie maszynowe języków migowych stało się możliwe od 1977 roku, kiedy to po raz pierwszy została opracowana metoda literowania słów w języku migowym przy pomocy sztucznej dłoni. Technologie te pozwalają na tłumaczenie języków migowych na formę pisemną i ustną (lub odwrotnie) bez udziału ludzkiego tłumacza. Wynalazcy opracowali produkty na szeroką skalę, aby zmniejszyć zależność od ludzkich tłumaczy. Języki migowe mają inne cechy fonologiczne niż języki mówione, co okazało się być przeszkodą dla programistów. Wykorzystują oni komputerowe rozpoznawanie obrazu i uczenie maszynowe, aby rozpoznawać pewne fonologiczne parametry, charakterystyczne dla języków migowych. Ponadto rozpoznawanie mowy i przetwarzanie języka naturalnego umożliwiają interaktywną komunikację między osobami słyszącymi i niedosłyszącymi. Niektóre z tych technologii są opracowywane przez zespół inżynierów i specjalistów należących do społeczności osób głuchych.

Historia[edytuj | edytuj kod]

Historia automatycznego tłumaczenia języka migowego rozpoczęła się wraz z rozwojem technik komputerowych, takich jak literowanie słów w języku migowym przy pomocy sztucznej dłoni. W 1977 roku w ramach projektu Ralph stworzono sztuczną dłoń, umożliwiającą tłumaczenie alfabetu na literowane słowa w języku migowym[1]. Późniejsze zastosowanie rękawic z czujnikami ruchu stało się powszechnie akceptowane. Dodatkowo narodziły się też projekty, takie jak CyberGlove i VPL Data Glove[2]. Przenośny sprzęt umożliwił wychwycenie kształtu dłoni i ruchów osób głuchych przy pomocy programów komputerowych[2]. Jednak kamery umożliwiające widzenie komputerowe zastąpiły te przenośne urządzenia, a to dzięki ich skuteczności i mniejszym ograniczeniom fizycznym narzucanym osobom głuchym. W celu przetworzenia danych zebranych przy pomocy kamer, naukowcy wprowadzili sieci neuronowe (np. Stuttgart Neural Network Simulator[3]) do rozpoznawania schematów w projektach, takich jak CyberGlove. Badacze korzystają także z wielu innych metod dotyczących rozpoznawania znaków. Jako przykład warto wskazać Hidden Markov Models, które są wykorzystywane do analizy danych statystycznych[2]. Ponadto GRASP i inne programy uczenia maszynowego używają zestawów treningowych w celu zwiększenia dokładności rozpoznawania znaków[4].

Technologie[edytuj | edytuj kod]

SignAloud[edytuj | edytuj kod]

SignAloud jest technologią, która wykorzystuje parę rękawiczek, stworzonych przez grupę studentów z University of Washington, do transliteracji[5] amerykańskiego języka migowego na język angielski[6]. Wiosną 2016 roku Thomas Prior i Navid Azodi, dwóch słyszących studentów Uniwersytetu w Waszyngtonie, wpadło na pomysł stworzenia takiego urządzenia. Azodi posiada obszerną wiedzę w dziedzinie zarządzania, podczas gdy Prior ma ogromne doświadczenie w inżynierii[7]. W maju 2016 roku twórcy urządzenia ogłosili w amerykańskim publicznym radiu NPR, że ściśle współpracują z osobami komunikującymi się przy pomocy amerykańskiego języka migowego. Celem tej kooperacji jest lepsze zrozumienie odbiorców i dostosowanie produktu do faktycznych, a nie rzekomych potrzeb tych ludzi[8]. Jednakże żadne nowsze wersje nie zostały wydane od tamtego czasu. Wynalazek ten był jednym z siedmiu, który otrzymał nagrodę dla studentów the Lemelson-MIT Student Prize. Celem tej organizacji jest nagradzanie młodych wynalazców. Ich wynalazek podlegał pod kategorię „Use it!”, która obejmuje postępy technologiczne stosowane dla istniejących produktów. Twórcom urządzenia przyznano nagrodę w wysokości 10 000 dolarów[9][10].

Rękawice mają czujniki, które monitorują ruchy rąk użytkowników, a następnie wysyłają dane do systemu komputera przez Bluetooth. System analizuje dane i porównuje je z angielskimi słowami, które następnie są wypowiadane przez elektroniczny głos[8]. Rękawice nie są w stanie odpowiedzieć na pisemną informację zredagowaną w języku angielskim. Nie posiadają też zdolności słyszenia języka, by następnie przekazać go osobom głuchym za pomocą języka migowego. Oznacza to, że nie zapewniają wzajemnej komunikacji. Urządzenie nie wykorzystuje mimiki ani innych języków migowych, które mogą zmienić rzeczywiste tłumaczenie z amerykańskiego języka migowego[11].

ProDeaf[12][edytuj | edytuj kod]

ProDeaf (WebLibras) to program komputerowy, który jest w stanie przetłumaczyć tekst i głos na Portugalski Język Migowy (Portuguese Libras) „w celu usprawnienia komunikacji między osobami głuchymi i słyszącymi”[13]. Obecnie w produkcji dla amerykańskiego języka migowego istnieje również wydanie beta. Pierwotny zespół rozpoczął pracę nad projektem w 2010 roku we współpracy ze słyszącymi i niedosłyszącymi ekspertami, takimi jak: językoznawcy, projektanci, programiści i tłumacze. Zespół powstał na Uniwersytecie Federalnym w Pernambuco (ang. skrót UFPE) i składał się z grupy studentów uczestniczących w projekcie informatycznym. Jednym z członków była osoba głucha, doświadczająca trudności w komunikowaniu się z resztą grupy. Aby ukończyć projekt i pomóc członkowi w komunikacji, grupa utworzyła program Proativa Soluções i od tamtego czasu prace posunęły się do przodu[14]. Obecna wersja beta w amerykańskim języku migowym jest bardzo ograniczona np. posiada sekcję słownikową, ale jedyne słowo znajdujące się pod literą ‘J’ to ‘jump’ (ang. skakać). Jeśli urządzenie nie zostało zaprogramowane dla danego słowa, to cyfrowy awatar musi literować to słowo w języku migowym. Ostatnia aktualizacja aplikacji miała miejsce w czerwcu 2016 roku, a ProDeaf został opisany w ponad 400 artykułach i reportażach przygotowanych przez najbardziej popularne środki masowego przekazu[15].

Aplikacja nie potrafi czytać języka migowego i przekształcać go na słowa lub teksty, dlatego służy jedynie jako jednostronna forma komunikacji. Ponadto użytkownik nie może zalogować się do aplikacji, by uzyskać angielskie tłumaczenie w dowolnej formie, ponieważ język ten jest nadal w wersji beta.

Kinect Sign Language Translator[16][edytuj | edytuj kod]

Począwszy od 2012 roku naukowcy z Chińskiej Akademii Nauk i specjaliści surdopedagogiki z Uniwersytetu w Pekinie współpracują w ramach azjatyckiego zespołu należącego do oddziału Microsoft Research firmy Microsoft, w celu stworzenia programu Kinect Sign Language Translator. Tłumacz składa się z dwóch trybów pracy: trybu tłumacza i trybu komunikacji. Tryb tłumacza potrafi przełożyć pojedyncze słowa z języka migowego na słowa pisane i odwrotnie. Drugi tryb, komunikacji, potrafi tłumaczyć całe zdania, a rozmowa może być automatycznie przetłumaczona przy użyciu awatara 3D. Ponadto tryb tłumacza może również wykrywać ruchy i kształty dłoni osoby posługującej się językiem migowym. Tryb ten jest także w stanie wychwycić tor ruchu przy wykorzystaniu technik uczenia maszynowego, rozpoznawania wzorców i obrazów. Urządzenie pozwala również na wzajemną komunikację dzięki temu, że technologia rozpoznawania mowy umożliwia przetłumaczenie jej na język migowy, a trójwymiarowy awatar przy pomocy języka migowego przekazuje wiadomość osobom głuchym[17].

Pierwotny projekt został uruchomiony w Chinach wykorzystując tłumaczenie chińskiego języka migowego. W 2013 roku projekt został przedstawiony na najważniejszym spotkaniu oddziału badań naukowych Microsoft Research Faculty Summit oraz na posiedzeniu firmy Microsoft[18]. Obecnie projekt ten jest również opracowywany przez naukowców ze Stanów Zjednoczonych, którzy chcą wykorzystać go do tłumaczenia amerykańskiego języka migowego[19]. Jak na razie urządzenie wciąż jest tylko prototypem, a dokładność tłumaczenia w trybie komunikacji nadal nie jest idealna.

SignAll[20][edytuj | edytuj kod]

SignAll to system automatycznego tłumaczenia języka migowego, który jest dostarczany przez Dolphio Technologies[21] na Węgrzech. Zespół „wprowadza pierwsze zautomatyzowane rozwiązanie dla tłumaczenia języka migowego, opierając się na technologiach rozpoznawania obrazów i przetwarzania języka naturalnego (z ang. NLP), aby zapewnić codzienną komunikację między osobami słyszącymi, które używają języka angielskiego w mowie, a głuchymi lub niedosłyszącymi posługującymi się Amerykańskim Językiem Migowym.” System SignAll wykorzystuje czujnik Kinect opracowany przez Microsoft oraz inne kamerki internetowe z czujnikami głębi podłączonymi do komputera. Dzięki technologii rozpoznawania obrazów możliwe jest zidentyfikowanie kształtu rąk i ruchu osób posługujących się językiem migowym. Następnie system przetwarzania języka naturalnego przekształca dane zebrane przy pomocy technologii rozpoznawania obrazów na proste wyrażenie w języku angielskim. Programistą urządzenia jest osoba głucha, a pozostała część zespołu pracująca nad tym projektem składa się z wielu inżynierów i specjalistów językowych należących zarówno do społeczności głuchej, jak i słyszącej. Technologia ma możliwość włączenia wszystkich pięciu parametrów AJM, za pomocą których urządzenie jest w stanie dokładnie interpretować ruchy osoby używającej język migowy. SignAll został zatwierdzony przez wiele firm, w tym Deloitte i LT-innovative i utworzył partnerstwa z Microsoft Bizspark oraz Hungary’s Renewal[22].

MotionSavvy[23][edytuj | edytuj kod]

MotionSavvy był pierwszym systemem przekształcającym język migowy na mowę. Urządzenie zostało stworzone w 2012 roku przez grupę z National Technical Institute for the Deaf i „powstał z akceleratora ruchu AXLR8R firmy the Leap Motion”[24]. Zespół użył do konstrukcji sprzęt komputerowy, który wykorzystuje możliwości kontrolera firmy the Leap Motion. Sześcioosobowa grupa składa się wyłącznie z niesłyszących uczniów uczęszczających do szkół dla głucho-niemych[25]. Jest to obecnie jedno z dwóch urządzeń umożliwiających wzajemną komunikację wyłącznie dla amerykańskiego języka migowego. Pozwala to głuchym osobom przekazać urządzeniu znak języka migowego, który jest następnie interpretowany. Urządzenie działa też w drugą stronę, tzn. rozpoznaje mówiony język angielski i tłumaczy go na Amerykański Język Migowy. Urządzenie kosztuje 198 dolarów. Niektóre inne funkcje obejmują zdolność do współdziałania, do podawania obecnej godziny, do wyrażania w różnorodny sposób słowa przy użyciu znaku oraz umożliwia komunikację z innymi użytkownikami w ramach programu CrowdSign.

Urządzenie zostało przetestowane przez wszystkie czasopisma o tematyce technologicznej, również przez Time. Jedno z amerykańskich czasopism Wired odnotowało: „Można było łatwo się przekonać, jak bardzo to małe urządzenie mobilne [UNI] może stać się rewolucyjną technologią” i że „[UNI] jeszcze nas zaskoczy.” Katy Steinmetz z TIME stwierdziła, że ta technologia może zmienić sposób życia osób niesłyszących. Sean Buckley z Engadget wspomniał, że „UNI może stać się niesamowitym narzędziem komunikacji.”

Przypisy[edytuj | edytuj kod]

  1. David Jaffe, Evolution of mechanical fingerspelling hands for people who are deaf- blind, The Journal of Rehabilitation Research and Development, s. 219.
  2. a b c Becky Patron, Sign Language Recognition and Translation:A Multidisciplined Approach From the Field of Artificial Intelligence, Journal of Deaf Studies and Deaf Education.
  3. J. Weissmann, R. Salomon, Gesture recognition for virtual reality applications using data gloves and neural networks [online], International Joint Conference on Neural Network, 1999, 2043–2046 vol.3. doi10.1109/IJCNN.1999.832699.
  4. Richard Bowden, Vision based interpretation of natural sign languages, 3rd International Conference on Computer Vision Systems.
  5. What is the difference between translation and transliteration. english.stackexchange.com. [dostęp 2017-04-06].
  6. SignAloud. [dostęp 2017-11-10]. [zarchiwizowane z tego adresu (2020-09-21)].
  7. „Thomas Pryor and Navid Azodi | Lemelson-MIT Program”. lemelson.mit.edu. [dostęp 2017-03-09]. [zarchiwizowane z tego adresu (21 września 2020)].
  8. a b These Gloves Offer A Modern Twist On Sign Language. NPR.org. [dostęp 2017-03-09].
  9. „Collegiate Inventors Awarded Lemelson-MIT Student Prize | Lemelson-MIT Program”. lemelson.mit.edu. [dostęp 2017-03-09]. [zarchiwizowane z tego adresu (13 stycznia 2021)].
  10. „UW undergraduate team wins $10,000 Lemelson-MIT Student Prize for gloves that translate sign language | UW Today”. www.washington.edu. [dostęp 2017-04-09].
  11. Nonmanual markers in American Sign Language (ASL). www.lifeprint.com. [dostęp 2017-04-06].
  12. ProDeaf. prodeaf.net. [dostęp 2017-04-09]. [zarchiwizowane z tego adresu (12 marca 2021)].
  13. ProDeaf. prodeaf.net. [dostęp 2017-03-09]. [zarchiwizowane z tego adresu (9 marca 2019)].
  14. ProDeaf. prodeaf.net. [dostęp 2017-03-16]. [zarchiwizowane z tego adresu (14 stycznia 2019)].
  15. ProDeaf Tradutor para Libras on the App Store. App Store. [dostęp 2017-03-09].
  16. Chen Xilin (2013): „Kinect Sign Language Translator expands communication possibilities” (PDF). Microsoft Research Connections. [dostęp 2017-11-10]. [zarchiwizowane z tego adresu (2017-04-04)].
  17. Ming Zhou: „Sign Language Recognition and Translation with Kinect” (PDF). IEEE Conference. [dostęp 2017-11-10]. [zarchiwizowane z tego adresu (2021-01-10)].
  18. Kinect Sign Language Translator.
  19. Zahoor Zafrulla, Helene Brashear, Thad Starner, Harley Hamilton, Peter Presti (01.01.2011): American Sign Language Recognition with the Kinect. Proceedings of the 13th International Conference on Multimodal Interfaces. ICMI '11. New York, NY, USA: ACM: 279–286. doi:10.1145/2070481.2070532. ISBN 978-1-4503-0641-6.
  20. SignAll. We translate sign language. Automatically. www.signall.us. [dostęp 2017-04-09].
  21. „Dolphio | Unique IT Technologies”. www.dolphio.hu. [dostęp 2017-04-06].
  22. SignAll. We translate sign language. Automatically. www.signall.us. [dostęp 2017-03-09].
  23. MotionSavvy UNI: 1st sign language to voice system. Indiegogo. [dostęp 2017-03-09].
  24. Rochester Institute of Technology (RIT). Rochester Institute of Technology (RIT). [dostęp 2017-04-06].
  25. Alexia Tsotsis: MotionSavvy Is A Tablet App That Understands Sign Language. TechCrunch. [dostęp 2017-04-09].