Tłumaczenie automatyczne

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Tłumaczenie automatyczne albo tłumaczenie maszynowe (ang. Machine Translation) jest dziedziną językoznawstwa komputerowego, które zajmuje się stosowaniem algorytmów tłumaczenia tekstu z jednego języka (naturalnego) na drugi.

Pierwsze odnotowane pomysły tłumaczy automatycznych pochodzą już z XVII w., lecz nie było możliwości ich realizacji. Dopiero nadejście komputerów pozwoliło tej dziedzinie „rozwijać powoli skrzydła”. Pierwsze maszyny tłumaczące pojawiły się w 1933 r., i wykorzystywano je głównie w wojskowości.

Główne metody tłumaczenia automatycznego[edytuj | edytuj kod]

Główne metody, przez które realizowane jest automatyczne tłumaczenie:

  • Systemy tłumaczenia bezpośredniego – wyrazy tekstu źródłowego zamieniane są tu wprost na tłumaczenie w oczekiwanym języku. Program zawiera odpowiadające sobie słowa i najczęściej stosowane frazy. Tłumaczenie tego typu daje akceptowalne wyniki tylko w zastosowaniu dla blisko ze sobą spokrewnionych języków.
  • Systemy przekładu składniowego – analizują składniową stronę tekstu. Najczęściej rezultatem jest drzewo składników, do którego następnie stosuje się odpowiednie reguły transferu.
  • Systemy oparte na powierzchniowym transferze semantycznym – biorą pod uwagę własności składniowe i częściowo znaczeniowe. Realizowane jest to poprzez dołączenie do drzewa struktury syntaktycznej dodatkowych informacji naprowadzających, np. atrybutów znaczeniowych.
  • Systemy międzyjęzykowe – oparte są na uniwersalnym języku reprezentacji znaczenia (tzw. interlingwę), który jest niezależny od języków naturalnych, zawartych w systemie. Proces translacji składa się z dwóch etapów: tłumaczenia z języka źródłowego na interlingwę i tłumaczenia z interlingwy na język wynikowy.
  • Tłumaczenie statystyczne – tłumaczenie w oparciu o wielkie zestawy (korpusy) tekstów przetłumaczonych przez człowieka. Dla danego zdania szukane jest jego najbardziej prawdopodobne tłumaczenie. Prawdopodobieństwo tłumaczenia obliczane jest na podstawie współwystępowania wyrazów w zebranym korpusie. Sukcesy w tym podejściu notuje portal Google, gdyż korzysta ze swoich olbrzymich korpusów stron internetowych.
  • Tłumaczenie oparte na przykładach – podobnie jak tłumaczenie statystyczne opiera się na istniejących tekstach przetłumaczonych. Dla danego zdania źródłowego system szuka najbardziej podobnego przykładu w swojej bazie danych i na tej podstawie wnioskuje jego tłumaczenie.

Podstawowe jednostki języka[edytuj | edytuj kod]

Podstawowe jednostki języka. Podlegają one abstrakcji.

  • Głoski, czyli konkretne dźwięki. Abstrakcją głosek są fonemy. Fonem to klasa dźwięków, które użytkownicy języka poznają jako posiadające pewne odrębne cechy, wyróżniające je spośród innych dźwięków.
  • Morfy – są najmniejszymi składnikami języka posiadającymi znaczenie. Ich abstrakcję zwiemy morfemami.
  • Wyrazy – konkretną formę wyrazu, którą używamy, nazywamy wyrazem tekstowym. Abstrakcją dla niego jest leksem. Teraz mały przykład: domem, domy to dwa wyrazy tekstowe jednego leksemu, z kolei wyraz domy składa się z dwóch morfemów: dom – budynku oraz końcówki y wskazującej, że jest ich więcej niż jeden.
  • Frazy (związki frazeologiczne) – ich abstrakcje to schematy frazy.
  • Zdania – przyjmuje się, iż są podstawową jednostką tekstu. Ich abstrakcjami są schematy zdań.
  • Wypowiedź – jest po prostu ciągiem zdań.

Niekiedy frazy i zdania traktuje się jako jedno i określa mianem sememów.

Kwestie semantyczne związane z automatycznym tłumaczeniem[edytuj | edytuj kod]

Pierwszą kwestią jest zagadnienie sensowności. Wyróżnia się trzy rodzaje sensowności.

  • Sensowność lokucyjna – związana jest ona z językiem naturalnym i jest słownikowym znaczeniem znaków. Nie zależy ona od kontekstu sytuacyjnego. Sensowność ta jest stopniowalna (np. prosimy o pojaśnianie).
  • Sensowność logiczna – nie ujawnia się empirycznie. Sensowność ta jest związana z językiem logiki. Jednakże język logiki komunikowalny jest tylko poprzez język naturalny. Powstaje problem przekładu. Wypowiedz jest sensowna logicznie gdy jest skorelowana ze zdaniem logicznym. Nie jest ona stopniowalna, ani nie zależy od kontekstu sytuacyjnego.
  • Sensowność wolicjonalno-emotywna – ujawnia się w kontekstach sytuacyjnych. Wypowiedzi mogą być niedostosowane do konwencji sytuacyjnej. Ta sensowność jest adaptacyjnością. Pojawia się rozróżnienie na kod kulturowy sytuacji i sens materialny. Sens materialny może być taki sam, a kody kulturowe różne. Sensowność ta jest stopniowalna.

Zestawmy powyższe z zagadnieniem automatycznego tłumaczenia. Tłumaczenie z pewnością musi brać pod uwagę każdy z omawianych sensów. Sensy te manifestują się w języku naturalnym. Wynika stad problem właściwej interpretacji, zwłaszcza sensu wolicjonalno-emotywnego. Nietrudno zresztą zauważyć, że właśnie ten sens stwarza najwięcej problemów przy tłumaczeniu. Rozważmy przykład wzięty z reklamy: w wielu reklamach spotykamy się z określeniem produktów spożywczych jako lekkich. Określenie to odnosi się pośrednio do preferowanego w naszej kulturze bycia szczupłym, tzn. lekkim. Gdyby nie kod kulturowy nie zrozumielibyśmy tej aluzji. Warto zauważyć, iż na znaczenie wypowiedzi wpływa również sens jaki mogą mieć reprezentacje brzmieniowe i graficzne wypowiedzi.

Samo pojęcie znaczenia ma istotny wpływ na zagadnienie automatycznego tłumaczenia. Myślę, że twórcy programów do automatycznego tłumaczenia mieliby uproszczone zadanie gdyby znali odpowiedz do czego odnoszą się poszczególne części wypowiedzi. Problematyczna jest też zmienność znaczenia. Język jest tworem żywym. Oznacza to, iż jego części bądź przestają funkcjonować, bądź tworzą się nowe, bądź znaczenie ich ulega częściowej lub całościowej zmianie.

Metaforyczność stanowi ważny problem. W języku naturalnym znajdują się metafory (nie ma ich w języku logiki). Kiedy mamy do czynienia z metaforą? Wtedy gdy zostanie złamana zasada kompozycji znaczeniowej, która mówi, że znaczenie wyrażenia całościowego jest funkcją znaczeń wyrażeń składowych. Np. zdanie: „Matematyka jest moją piętą achillesową” oznaczałoby dosłownie, nie metaforycznie, że matematyka jest dla mnie częścią nogi mitycznego herosa. Jednakże nie można pozbyć się metafor, gdyż język straciłby swą moc informacyjną.

Synonimia. Nawet w jednym języku nastręcza ona trudności przez to, iż wyrazy mają różny zakres pojęciowy. W tłumaczeniu problem ten ulega tylko powiększeniu. Częstokroć bywa tak, że tłumaczony wyraz nie ma swego odpowiednika w drugim języku.

Homonimy są kolejnymi problemami w automatycznym tłumaczeniu. Właściwa interpretacja jest przy nich bardzo ważna. Np. zdanie: „Podszedł do zamku” można interpretować na różne sposoby i interpretacje są zależne od kontekstu. Pojawia się tu kwestia umiejętności donoszenia się do kontekstu przez automatycznego tłumacza.

Dużą grupę problemów stanowią różnice w składni pomiędzy językami. Np. w języku angielskim istotne jest miejsce wyrazu w zdaniu (jest to język pozycyjny), natomiast w języku polskim nie. Innymi problemami jest występowanie w języku rodzajników określonych i nieokreślonych lub podmiotu domyślnego. Powstaje również pytanie o możliwość stworzenia języka pośredniego w tłumaczeniu, biorąc pod uwagę dotychczasowe rozważania (szczególnie te odnoszące się do kultury). Rodzaje programów tłumaczenia automatycznego (maszynowego):

  • Tłumaczenie wspomagane maszynowo, polega na tym, że całe tłumaczenie jest wykonywane przez człowieka wykorzystującego komputer w celu usprawnienia i przyspieszenia całego procesu.
  • Tłumaczenie wspomagane przez człowieka, polega na tym, że tekst źródłowy jest modyfikowany przed, w czasie lub po przetłumaczeniu go przez komputer.
  • Tłumaczenie całkowicie maszynowe, polega na tym ze program otrzymuje tekst źródłowy i bez żadnej ingerencji człowieka generuje tekst w języku wynikowym.

Efekty[edytuj | edytuj kod]

Efektywność tłumaczeń całkowicie maszynowych jest słaba (można łatwo rozpoznać, że tłumaczenie było przeprowadzone maszynowo), jednakże można zrozumieć treść. Tłumaczenie takie nadaje się gdy czytamy tekst w języku dla nas obcym.

Przykład:

  • Tekst oryginalny (pochodzi z angielskiej wikipedii):
    • Translation is the action of interpretation of the meaning of a text, and subsequent production of an equivalent text, also called a translation, that communicates the same message in another language. The text to be translated is called the source text, and the language it is to be translated into is called the target language; the final product is sometimes called the “target text.”
  • tekst po przetłumaczeniu maszynowym na polski:
    • Tłumaczenie jest działanie interpretacji w rozumieniu tekstu, a kolejnych produkcji równoważny tekst, zwane również tłumaczeniem, że przekaże tę samą wiadomość w innym języku. Tekst do przetłumaczenia nazywa się tekstem źródłowym, a język ma być przetłumaczone na język nazywa języku docelowym; produkcie końcowym jest często nazywany „cel tekstu”.

Ocena[edytuj | edytuj kod]

Information icon.svg Osobny artykuł: Ocena tłumaczenia maszynowego.

Istnieje wiele różnych środków do oceny (ewaluacji) wydajności systemów tłumaczenia maszynowego. Najstarszą z nich jest wykorzystanie ludzkich osądów do oceny jakości tłumaczenia. Mimo że ludzka ocena pochłania sporo czasu, nadal jest najbardziej solidnym sposobem porównania różnych systemów. Zautomatyzowane środki oceny to m.in. BLEU, NIST i METEOR.

Bibliografia[edytuj | edytuj kod]

  • John Lyons, Semantyka, tom I i II, PWN, 1984.

Zobacz też[edytuj | edytuj kod]

Linki zewnętrzne[edytuj | edytuj kod]