La importancia de un buen corpus
La mejor memoria de traducción, en formato .tmx; el mejor corpus, Internet
Como ya hablé en esta entrada sobre las memorias de traducción, solo me gustaría centrarme en dos aspectos, la alineación y la importancia de los corpus o colección de textos, que sirven como textos paralelos para alimentar la memoria de traducción.otra entrada), estuve leyendo una serie de artículos y uno me llamó especialmente la atención, puesto que hablaba de qué ocurriría si pudiéramos utilizar internet como una colección de textos, como un corpus inmenso (o incluso infinito) o, en palabras de Joseba Abaitua, autor de dicho artículo, si convirtiéramos internet en una inmensa memoria de traducción(1).
Abaitua realiza un análisis bastante completo de la teoría de la traducción (de hecho, habla de conceptos recurrentes en la asignatura de Traductología como la equivalencia o la unidad de traducción) aplicándola a la traducción automática y asistida, de forma que, partiendo del concepto de que todas las lenguas del mundo comparten una misma subestructura lógica, si pudiéramos descubrir y formalizar dicha subestructura, el problema de la traducción estaría resuelto.
Sin embargo, como suele ocurrir, la teoría dista mucho de la práctica y, por ello, los resultados de los sistemas que se basaban en esta teoría no han sido muy buenos(2). Abaitua cita a Melby, que duda de la existencia de unidades conceptuales universales (los universales es otro concepto habitual en Traductología) e incluso llega a decir que esta teoría (y también puede deducirse que la de la subestructura) es utópica de cara a la traducción automática. Además, el problema de los giros idiomáticos (fórmulas, frases hechas...) tampoco parece haberse solucionado (puesto que son expresiones más bien dinámicas que, por lo tanto, no pueden estar recogidas por completo en diccionarios, que son más bien estáticos y las recogen de forma homogénea y sistemática).
Después de este análisis tan exhaustivo, Abaitua pasa a hablar del TMX (acrónimo del inglés Translation Memory eXchange), formato habitual de las memorias de traducción que facilita el intercambio de estas entre distintos programas de traducción asistida y que, por lo tanto, es el más recomendado para guardar una memoria de traducción.
Las memorias de traducción recogen un corpus que contiene una serie de textos paralelos; es importante disponer de buenos textos paralelos puesto que, en ese caso, será «posible obtener porcentajes cercanos al 100% para la alineación tanto de palabras como de oraciones. [...] [De hecho,] un corpus alineado y anotado constituye una memoria de traducción [...] (MMT), una tecnología alternativa a la traducción de base semántica [es decir, la tradicional que se ha hecho siempre] y tiene su origen en una propuesta de Nagao (1984) llamada traducción "por ejemplos"»(3). No continuaré profundizando en el concepto de memoria de traducción, pues ya le dediqué una entrada, pero quería reflejar las palabras de esta autor, puesto que la resume de forma clara y sencilla. Estas memorias de traducción, por lo tanto, traducen por analogías y, aunque hay que tener cuidado con ellas, pueden llegar a ser muy útiles para el traductor.
Abaitua realiza un análisis bastante completo de la teoría de la traducción (de hecho, habla de conceptos recurrentes en la asignatura de Traductología como la equivalencia o la unidad de traducción) aplicándola a la traducción automática y asistida, de forma que, partiendo del concepto de que todas las lenguas del mundo comparten una misma subestructura lógica, si pudiéramos descubrir y formalizar dicha subestructura, el problema de la traducción estaría resuelto.
Sin embargo, como suele ocurrir, la teoría dista mucho de la práctica y, por ello, los resultados de los sistemas que se basaban en esta teoría no han sido muy buenos(2). Abaitua cita a Melby, que duda de la existencia de unidades conceptuales universales (los universales es otro concepto habitual en Traductología) e incluso llega a decir que esta teoría (y también puede deducirse que la de la subestructura) es utópica de cara a la traducción automática. Además, el problema de los giros idiomáticos (fórmulas, frases hechas...) tampoco parece haberse solucionado (puesto que son expresiones más bien dinámicas que, por lo tanto, no pueden estar recogidas por completo en diccionarios, que son más bien estáticos y las recogen de forma homogénea y sistemática).
Después de este análisis tan exhaustivo, Abaitua pasa a hablar del TMX (acrónimo del inglés Translation Memory eXchange), formato habitual de las memorias de traducción que facilita el intercambio de estas entre distintos programas de traducción asistida y que, por lo tanto, es el más recomendado para guardar una memoria de traducción.
Las memorias de traducción recogen un corpus que contiene una serie de textos paralelos; es importante disponer de buenos textos paralelos puesto que, en ese caso, será «posible obtener porcentajes cercanos al 100% para la alineación tanto de palabras como de oraciones. [...] [De hecho,] un corpus alineado y anotado constituye una memoria de traducción [...] (MMT), una tecnología alternativa a la traducción de base semántica [es decir, la tradicional que se ha hecho siempre] y tiene su origen en una propuesta de Nagao (1984) llamada traducción "por ejemplos"»(3). No continuaré profundizando en el concepto de memoria de traducción, pues ya le dediqué una entrada, pero quería reflejar las palabras de esta autor, puesto que la resume de forma clara y sencilla. Estas memorias de traducción, por lo tanto, traducen por analogías y, aunque hay que tener cuidado con ellas, pueden llegar a ser muy útiles para el traductor.
El problema de las memorias de traducción, sin embargo, es que primero hay que alimentarlas de textos, proceso largo y laborioso, además de que hay que alinear cada segmento de cada texto, como explicaré en la siguiente entrada que sirve de complemento a esta.
A lo que quería llegar con esto es a lo mismo a lo que llega Abaitua: tras hablar del copyleft (es decir, que garantiza la distribución mediante términos legales, sin que nadie pueda alterar dicha condición de libre distribución) y del software libre (más adelante, mencionaré un blog bastante útil que recoge muchos programas de traducción de este tipo), menciona la existencia de recopilaciones de obras literarias y de traducciones, como el proyecto Gutenberg o la Biblioteca Virtual Cervantes (como curiosidad, existe un proyecto similar de obras en lengua japonesa llamado 青空文庫, aozora bunko, 'Colección del cielo azul'), que recogen textos cuyos derechos de autor ya han caducado y que podrían utilizarse como buenos corpus. Si a esto le añadimos que podrían existir motores de búsqueda similares a Google, pero especializados en la búsqueda de corpus multilingües, las memorias de traducción se verían alimentadas a una gran velocidad y, lo que es mejor, de forma muy eficaz. Sin embargo, para que esto sea posible, autores, traductores y editores deberían permitir la libre circulación de sus trabajos, que deberían estar disponibles en internet; para que llegue este momento, me temo que todavía queda mucho y más dado el actual debate que hay sobre la propiedad intelectual...
En conclusión, creo que, por ahora, cada traductor tendrá que alimentar su propia memoria de traducción, lo que será más costoso en términos de tiempo y esfuerzo, y, además, esta memoria de traducción no será lo completa que sería si contara con textos de todo el mundo, hechos por todo tipo de personas... Como en muchos otros ámbitos, estamos muy lejos de alcanzar esta «riqueza» y, por ahora (aunque sí es verdad que hemos avanzado mucho), cada uno tendrá que apañárselas como pueda.
___________________
(1) Abaitua, Joseba: «Memorias de traducción en TMX compartidas por Internet». Accesible en: http://webs2002.uab.es/tradumatica/revista/num0/articles/jabaitua/central.htm [Consulta: 22/III/2012]
(2) Abaitua, Joseba: op. cit.
(3) Abaitua, Joseba: op. cit.
(2) Abaitua, Joseba: op. cit.
(3) Abaitua, Joseba: op. cit.
6 comentarios:
word reference y Linguee pueden usarse en el programa TRADOS como memorias de traducción?
Gracias por su respuesta
word reference y Linguee pueden usarse en el programa TRADOS como memorias de traducción?
Gracias por su respuesta
¡Hola! No te sé decir seguro, pero lo cierto es que Wordreference es un diccionario y Linguee yo no lo consideraría una memoria de traducción, la verdad... Gracias por tu comentario.
Cómo o dónde puedo conseguir una memora de traducción inglés - español para el programa TRADOS?
De antemano gracias por tu respuesta
Cómo o dónde puedo conseguir una memora de traducción inglés - español para el programa TRADOS?
De antemano gracias por tu respuesta
Pues no lo sé, porque nunca he manejado TRADOS (era demasiado caro para nuestra universidad, así que tuvimos que aprender con programas gratuitos).
Publicar un comentario
Gracias por leer esta entrada. Si tienes alguna duda o si quieres dar tu opinión, agradecería mucho que dejaras un comentario.
¡Muchas gracias!