Tekst równoległy

Tekst równoległy (dwu- bądź wielojęzyczny) – tekst składający się z zestawionych obok siebie tekstów w co najmniej dwóch językach. Najczęściej jeden z tekstów jest oryginałem, a pozostałe jego tłumaczeniami, choć niekiedy nie da się już określić, który tekst był opracowany jako pierwotny, gdyż wszystkie były opracowywane równolegle i wzajemnie do siebie dostosowywane.

Dopasowanie tekstów równoległych polega na określaniu odpowiadających sobie zdań w poszczególnych językach. Przykładami tekstów równoległych mogą być Biblioteka klasyczna opracowana przez Loeba czy Biblioteka sanskrycka Claya, ale również takie teksty jak wielojęzyczna instrukcja obsługi lub strona internetowa oraz niektóre wydania tłumaczeń Biblii zawierające tekst w językach oryginalnych zestawiony z tłumaczeniem na przykład na polski, lub też po prostu kilka różnych tłumaczeń zestawionych w celu łatwiejszego porównania. Jednym z najwcześniejszych przykładów takiej poligloty, czyli "wielojęzycznej Biblii" jest opracowana przez Orygenesa Hexapla, w której zestawił on w równoległych kolumnach sześć wersji Starego Testamentu. Inny słynnym przykładem tekstu równoległego jest Kamień z Rosetty.

Teksty równoległe w znaczeniu ogólnym rozumieć można również jako różne teksty o bardzo zbliżonej tematyce, lub formie, których zestawienie na poziomie zdań nie jest możliwe, jednak mimo to ich porównanie może być użyteczne dla językoznawcy, terminologa lub tłumacza. Dobrym przykładem są tu wielojęzyczne hasła Wikipedii, które zawierają podobne informacje w różnych językach. Nawet jeśli początkowo są to tłumaczenia haseł z innego języka, to uzupełniane i rozbudowywane są niezależnie w ramach danej wspólnoty językowej i najczęściej funkcjonują zupełnie niezależnie od siebie.

Większe zasoby tekstów równoległych określane są mianem korpusów równoległych (zob. korpus). Dopasowanie korpusów równoległych na poziomie zdań jest niezbędnym warunkiem do prowadzenia badań w wielu dziedzinach językoznawstwa. Należy jednak pamiętać, że dopasowanie poszczególnych segmentów tłumaczenia nie zawsze jest proste, gdyż poszczególne zdania oryginału mogą być przez tłumacza podzielone, złączone, usunięte, przesunięte w inne miejsce lub zastąpione zupełnie nowym elementem.

Dwutekst[edytuj | edytuj kod]

W translatoryce dwutekst (ang. bitext) to tekst, w którym poszczególne zdania tekstu wyjściowego i docelowego umieszczone są bezpośrednio koło siebie w jednym dokumencie, raczej niż w dwóch osobnych kolumnach.

Dwuteksty tworzone są przy pomocy programu zwanego narzędziem dopasowującym lub segmentującym, które automatycznie dopasowuje oryginalne i przetłumaczone wersje tego samego tekstu. Narzędzie to zazwyczaj dopasowuje dwa teksty zdanie po zdaniu. Zasoby dwutekstów, określane mianem dwutekstowej bazy danych lub dwutekstowego korpusu, można przeglądać i badać za pomocą narzędzia wyszukującego.

Historia[edytuj | edytuj kod]

Autorstwo pojęcia dwutekstu przypisuje się Brianowi Harrisowi, który jako pierwszy poświęcił temu pojęciu artykuł w 1988. Idea dwutekstu została rozpropagowana przez grupę RALI (fr. Recherche appliquée en linguistique informatique: ang. Applied Research in Computational Linguistics), działającą przy Université de Montréal i składającą się z informatyków oraz lingwistów zajmujących się analizą języka naturalnego. Znani popularyzatorzy pojęcia dwutekstu to Pierre Isabelle i Claude Bédard.

Dwutekst a pamięć tłumaczeniowa[edytuj | edytuj kod]

Idea dwutekstu jest zbliżona do pojęcia pamięci tłumaczeniowej (ang. Translation Memory). Najważniejszą różnicą pomiędzy dwutekstem i pamięcią tłumaczeniową jest to, że pamięć tłumaczeń to baza danych, w której segmenty (tzn. sparowane zdania) przechowywane są w sposób zupełnie niezwiązany z ich pierwotnym kontekstem - następuje więc utrata oryginalnej kolejności zdań. Z kolei dwutekst zachowuje oryginalny porządek zdań. W niektórych formatach pamięci tłumaczeniowych (jak np. TMX) jest jednak możliwe zachowanie oryginalnej kolejności segmentów. Format TMX (ang. Translation Memory eXchange) to standardowy format XML służący do wymiany zasobów pamięci tłumaczeniowych między różnymi programami typu CAT.

Zobacz też[edytuj | edytuj kod]

Linki zewnętrzne[edytuj | edytuj kod]

Wielojęzyczny korpus równoległy oparty na Acquis Communautaire. langtech.jrc.it. [zarchiwizowane z tego adresu (2006-06-19)].
Projekt Opus polegający na zbieraniu ogólnie dostępnych korpusów równoległych
COMPARA - Korpus portugalsko-angielski
Nunavut Hansard - korpus angielsko-inuicki. inuktitutcomputing.ca. [zarchiwizowane z tego adresu (2007-07-07)].

Bibliografia na temat analizy języka naturalnego przygotowana przez J. Veronis oraz M.-D. Mahimon. up.univ-mrs.fr. [zarchiwizowane z tego adresu (2004-04-17)].
Proceedings of the 2003 Workshop on Building and Using Parallel Texts. cs.unt.edu. [zarchiwizowane z tego adresu (2008-05-12)].
Proceedings of the 2005 Workshop on Building and Using Parallel Texts. cs.unt.edu. [zarchiwizowane z tego adresu (2008-05-12)].