Términos claves de Informática Aplicada a la Traducción (II) ~ Mundos binarios de Babel

Términos más específicos relacionados con las memorias de traducción

Tras una primera entrada de conceptos más generales de Informática aplicada a la traducción, voy a proseguir con términos más específicos que tienen que ver con las memorias de traducción. Como ya expliqué en qué consiste una memoria de traducción (ver término 9 de dicha entrada), voy a pasar a definir los siguientes términos:

12. Coincidencias totales y coincidencias parciales o fuzzy matching

El programa de memorias de traducción contiene una memoria de traducción dividida en una serie de segmentos en lengua origen, que están almacenados junto a su correspondiente equivalente en lengua meta (ver términos 10 y 11). Así, cuando se está traduciendo un texto nuevo, dicho programa realiza una búsqueda para localizar aquellos segmentos del texto nuevo que ya se hayan traducido previamente y que, por lo tanto, se encuentren almacenados en la memoria.

Si ya hay un segmento almacenado en la memoria que es prácticamente (o exactamente) igual al segmento nuevo, se habla de coincidencias totales. Si la coincidencia es solo parcial, se habla de fuzzy matching.

12. 1. Umbral de sensibilidad

Además, puede indicársele al programa que aplique un determinado umbral de sensibilidad en la búsqueda de coincidencias; se aplica un grado que puede ir de 0 a 100 y que, por defecto, suele ser de un 75% dado que, si se es demasiado exigente con el programa y se le pide que encuentre coincidencias exactas, será muy poco probable que las encuentre (y habrá demasiado silencio, en contraposición al ruido, que se dará cuando el umbral sea demasiado bajo y, por lo tanto, aparezcan demasiados resultados; es lo mismo que ocurre cuando se realiza una búsqueda en un motor de búsqueda).

13. Autopropagación

De esta forma, en el programa de memorias de traducción puede activarse la opción de autopropagación (esto puede hacerse, por ejemplo, en Déjà Vu), de forma que, si un determinado segmento ya se ha traducido y vuelve a aparecer en el texto que se está traduciendo, el programa introducirá la traducción que ya se haya realizado (esto es especialmente útil en el caso de textos muy repetitivos, puesto que le ahorra mucho tiempo al traductor y le asegura que será coherente en su traducción).

De esta y de otras funciones básicas de cualquier sistema de memoria de traducción hablo en Traducir mediante una memoria de traducción: funciones y herramientas básicas.

13.1. Autocomprobación

Además, el programa de memoria de traducción va comprobando que la traducción de los segmentos que realiza el traductor se corresponde con la que tiene almacenada (si no, como en el caso de Déjà Vu, el programa avisa al traductor mediante un signo de exclamación en rojo).

14. Unidad de traducción

Este concepto es bastante abstracto, puesto que la unidad de traducción se corresponde con el segmento que se traduce. En otras palabras, la unidad de traducción puede abarcar desde una palabra hasta una oración entera (e incluso los hay que afirman que traducimos textos y no palabras ni oraciones). En cualquier caso, para los sistemas de memorias de traducción, la unidad de traducción es el segmento, como ya expliqué (ver 11).

Hablar de «unidad de traducción» nos lleva a «afinar» un poco más en cuanto a los términos que van a definirse, es decir, a ser más específicos y a centrarnos en unidades de traducción más pequeñas, como pueden ser las palabras, cuya traducción correcta (teniendo en cuenta el contexto en cada caso) hay que conocer e indicar al programa:

15. Término

Como ya he dicho en varias ocasiones, tras dos asignaturas de Terminología, la definición de término no supone ninguna dificultad. Como ya definí en la entrada La importancia de la terminología en los programas de memoria de traducción, un término es una unidad léxica compuesta por una o más palabras que adquiere su significación en función de un ámbito determinado; en muchas ocasiones, de hecho, solo en función del contexto sabremos el significado y la acepción de un término dado.

Para ello es fundamental realizar una extracción terminológica, en la que conviene indicar las distintas traducciones de los términos en función de su contexto de uso.

15.1. Extracción terminológica

También a la extracción terminológica le dediqué una entrada, por lo que solo diré que consiste en recopilar de una serie de textos especializados aquellas palabras que puedan considerarse términos. Esto se puede hacer de forma automática mediante programas como Lexterm o mediante el que incluye Déjà Vu y, aunque no lo parezca, ahorrará mucho tiempo al traductor cuando esté realizando la traducción, además de que le asegurará una coherencia interna en su trabajo, como no me he cansado de repetir.

Para un análisis más detallado de la extracción terminológica, así como de sus ventajas, ver La importancia de la terminología en los programas de memoria de traducción y La extracción de términos.

15.1.1. Las stopwords

A propósito de la extracción terminológica, conviene recordar un término muy relacionado, el de stopword, aquellas palabras que están vacías de contenido. Cuando el programa realiza una extracción terminológica automática, puede marcarse como preferencia que no incluya dichas palabras en su extracción (en internet hay muchos listados de estas palabras, además de que muchos programas de extracción terminológica las incluyen; es el caso de Lexterm).

Aun a riesgo de repetirme, para más información sobre las stopwords, puede consultarse la entrada anteriormente citada La extracción de términos.

Volvamos ahora a ampliar un poco la cuestión de las palabras y de los términos. ¿En qué tipo de listas se incluyen?

16. Base de datos terminológica

Una base de datos terminológica es, simplemente, una base de datos (esto es, un contenedor de datos) que incluye una serie de términos recopilados por pares, es decir, incluye el término original junto a su traducción y, lo que es más importante, también incluye su contexto, el ámbito en el que se utiliza (ya he insistido en varias ocasiones en la importancia del contexto en la traducción de términos).

Asimismo, la base de datos terminológica puede ser multilingüe (es decir, incluir la traducción correspondiente del término en más de un idioma) y multiámbito (dado que un mismo término puede tener distintas acepciones según el contexto del uso, por lo que es de gran importancia que esto esté bien indicado en la base de datos terminológica).

Una vez más, de estos temas hablo en La importancia de la terminología en los programas de memoria de traducción.

17. Léxico, lexicón

Un léxico, por lo tanto, sería una base de datos terminológica ad hoc, esto es, creada para un proyecto de traducción determinado. Así, una vez que se finalice el proyecto, dicho léxico pasaría a formar parte de la base de datos terminológica. Dado que es un glosario ad hoc, no hace falta incluir el ámbito de uso, puesto que en un proyecto de traducción determinado solo habrá un contexto.

Un lexicón es lo mismo que el léxico, aunque el término lexicón se utiliza con más frecuencia, a mi juicio, en lo relativo a la traducción automática y asistida.

También al léxico y al lexicón les dedico la entrada La importancia de la terminología en los programas de memoria de traducción y La extracción de términos.

18. Autobúsqueda

Muy relacionada con los términos anteriores está la función de autobúsqueda que ofrecen los sistemas de memorias de traducción (como Déjà Vu, sin ir más lejos). Si esta opción está activada, el sistema buscará de forma automática si existe algo aprovechable en las distintas bases de datos (memorias de traducción, bases de datos terminológicas, lexicones...), esto es, si puede utilizar traducciones de segmentos o de términos ya realizadas en el texto que se está traduciendo (una vez más, esto asegura la coherencia del trabajo del traductor).

Para una explicación de la autobúsqueda más «en contexto», ver, una vez más, La importancia de la terminología en los programas de memoria de traducción.

19. Deep mining

Retomo los conceptos de autopropagación (13) y autobúsqueda (18) para explicar brevemente en qué consiste el deep mining. Se trata, simplemente, de una búsqueda inteligente: a partir de las distintas fuentes de las que dispone (memorias de traducción, bases de datos terminológicas, lexicones..), el programa realiza una autobúsqueda y, empleando distintos segmentos, el propio programa es el que propone una traducción, es decir, que es el propio programa el que deduce la traducción del segmento nuevo.

A propósito del deep mining, puede leerse la entrada Deep mining with Déjà Vu X2.

20. Autoensamblaje

Lo contrario al deep mining sería el autoensamblaje: el programa solo introduce los resultados de distintos segmentos, sin deducir ni intuir cuál podría ser la traducción del segmento nuevo (que se diferencia de la autopropagación, ver 13, dado que esta se aplica en el caso de coincidencias totales de segmentos).

21. Principales formatos o extensiones que un traductor debe conocer

Para terminar con esta entrada, me gustaría indicar brevemente las principales extensiones que un traductor que esté trabajando con sistemas de memorias de traducción debe conocer (por ejemplo, a la hora de importar un determinado archivo al proyecto de traducción o al buscar un determinado archivo exportado del proyecto de traducción). No hablo ya del .doc(x) o del .jpg, puesto que doy por hecho que eso ya es de sobra conocido, por lo que pasaré a explicar otros más específicos con los que me he encontrado durante el desarrollo de la asignatura y, especialmente, al utilizar el programa Déjà Vu.

21.1. tmx

Formato estándar para las memorias de traducción que permite que dichas memorias puedan intercambiarse entre distintos programas de memorias de traducción sin que haya problemas de compatibilidad. Es el acrónimo de Translation Memory eXchange.

En el .tmx pueden encontrarse dos tipos de informaciones, etiquetas y contenidos. Las etiquetas dan información y van asociadas a una serie de parámetros y variables, suelen ser dobles (es decir, hay una de apertura, < >, y otra de cierre, </ >) y están escritas en lenguaje html. Los contenidos son toda la información que se encuentra incluida en dichas etiquetas.

Para más información, ver El formato .tmx y el lenguaje html.

Las siguientes extensiones son propias del programa Déjà Vu. Aunque a simple vista parezcan complicadas de reconocer, son muy fáciles de deducir. Como es lógico, solo se pueden abrir con dicho programa.

21.2. dvprj

Esta extensión corresponde al proyecto de traducción de Déjà Vu (dv es Déjà Vu y prj, project).

21.3. dvmdb

Esta extensión corresponde a la memoria de traducción de Déjà Vu (Déjà Vu Memory DataBase).

21.4. dvmdx

El archivo que tiene esta extensión contiene otro tipo de información, tales como el nombre del proyecto y de los archivos.

21.5. dvmdi

Los archivos que están guardados con esta extensión corresponden a cada una de las lenguas con las que se está trabajando en el proyecto. Así, si se está trabajando con el inglés (como lengua origen, por ejemplo) y con el español (como lengua meta, por ejemplo), habrá dos archivos distintos con dos extensiones distintas, .en.dvmdi (inglés) y .es.dvmdi (español).

21.6. dvtdb

Este formato indica que se trata de una base de datos de terminología de Déjà Vu (Déjà Vu Terminology DataBase).

Para más información sobre las extensiones mencionadas arriba, ver Déjà Vu X Professional. Guía de introducción al uso y 12 facts, hints and ideas on databases in DVX2.

sábado, 28 de abril de 2012