marzo 2012 ~ Mundos binarios de Babel

viernes, 30 de marzo de 2012

El formato .tmx y el lenguaje html

Hoy en día, es imprescindible para un traductor tener ciertas nociones de html

jueves, 22 de marzo de 2012

Pasos previos a la creación de una memoria de traducción (II)

La alineación de textos

Como ya he mencionado en varias ocasiones, el paso previo a la creación de una memoria de traducción es la alineación de textos. ¿En qué consiste la alineación? En comparar el texto origen y el texto meta, haciendo coincidir cada uno de los segmentos en los que se dividen; estos segmentos son la unidad de traducción de la memoria de traducción y pueden ser desde una palabra hasta una oración o incluso un párrafo entero, aunque el programa de alineación suele terminar y empezar cada segmento en un punto.

Lo que hace el sistema es leer el texto y dividirlo en segmentos y, de forma automática, va relacionando cada segmento con su correspondiente traducción. Es por ello que, como dije en la anterior entrada, es importantísimo que la memoria de traducción cuente con la mayor cantidad de textos posible, de forma que la memoria de traducción tenga un buen corpus.

Como quizá en la teoría suene confuso, voy a explicarlo mediante imágenes. Así, en las últimas clases de Informática Aplicada a la Traducción hemos realizado la alineación de textos mediante dos programas, Déjà Vu y Bitext (aunque esto podría hacerse incluso con Excel).

En ambos programas (y en cualquier otro), hay que seleccionar, en primer lugar, el archivo del texto origen y el del texto meta y, a continuación, hay que definir el idioma de ambos textos. Además, con Déjà Vu se abre un asistente que te guía en todo el proceso de la creación de la memoria de traducción y que te ofrece la posibilidad de especificar un cliente y también el tema del texto (entre una gran variedad de temas), para poder etiquetar la información por clientes y por temas.

Veamos una captura de la alineación mediante Déjà Vu (la pongo en el tamaño máximo para que se vea bien):

Captura de pantalla del programa de alineación de textos de Déjà Vu.

Como podéis ver, no todos los segmentos de la traducción se corresponden con el original, por lo que es tarea del traductor ir relacionando, de forma manual, cada segmento traducido con el correspondiente segmento original. Así, puede unir o separar segmentos como considere oportuno mediante los botones situados debajo de ambos textos (los botones situados debajo del texto inglés solo afectan a este texto y lo mismo ocurre con los situados en la traducción al español).

Esta alineación también se puede realizar mediante líneas en el caso de WinAlign, el programa de alineación de Trados:

Captura de pantalla de WinAlign. Extraída de la presentación de Power

Point de la asignatura de Informática Aplicada a la Traducción.

Y de forma similar a Déjà Vu se hace en Bitext, que tiene la ventaja de ser un programa de código abierto (y de que incluye la opción de deshacer, más útil de lo que pensáis):

Captura de pantalla del programa de código abierto de alineación

de textos Bitext.

Una vez alineados todos los segmentos, el texto queda así:

Captura de pantalla del programa de alineación de textos de Déjà Vu, una vez que todos los segmentos de la traducción se corresponden con los segmentos originales.

Una vez terminado, se guarda el archivo (se guardará en formato .dvmdb) y se crea la memoria, que podrá abrirse mediante Déjà Vu, por ejemplo:

Captura de pantalla de Déjà Vu. El archivo de alineación ya es una memoria

de traducción y puede abrirse con Déjà Vu y utilizarse sin problemas.

Como puede verse, el manejo de este tipo de programas es muy sencillo y permitirá crear una buena memoria de traducción que, como ya he dicho en varias ocasiones, ayudará al traductor a agilizar su trabajo y a que sus traducciones sean mejores, ahorrándole segmentos repetitivos que llegan a ser pesados para él, como los que suelen aparecer en textos especializados, que no suelen caracterizarse por su originalidad; eso sí, no conviene utilizar este tipo de herramientas con textos más creativos como los literarios...

Pasos previos a la creación de una memoria de traducción (I)

La importancia de un buen corpus

La mejor memoria de traducción, en formato .tmx; el mejor corpus, Internet

Como ya hablé en esta entrada sobre las memorias de traducción, solo me gustaría centrarme en dos aspectos, la alineación y la importancia de los corpus o colección de textos, que sirven como textos paralelos para alimentar la memoria de traducción.

Traducciones de Hamlet: ejemplos en TMX. Aquí

puede verse cómo los segmentos están divididos

por unidades de traducción (TU), división en la que,

dada su subjetividad, los teóricos de la traducción

no se han puesto de acuerdo. Extraído de Abaitua,

Joseba: op. cit.

¿Por qué he decidido hablar de estos dos aspectos? En cuanto a los corpus (a la alineación le dedico otra entrada), estuve leyendo una serie de artículos y uno me llamó especialmente la atención, puesto que hablaba de qué ocurriría si pudiéramos utilizar internet como una colección de textos, como un corpus inmenso (o incluso infinito) o, en palabras de Joseba Abaitua, autor de dicho artículo, si convirtiéramos internet en una inmensa memoria de traducción(1).

Abaitua realiza un análisis bastante completo de la teoría de la traducción (de hecho, habla de conceptos recurrentes en la asignatura de Traductología como la equivalencia o la unidad de traducción) aplicándola a la traducción automática y asistida, de forma que, partiendo del concepto de que todas las lenguas del mundo comparten una misma subestructura lógica, si pudiéramos descubrir y formalizar dicha subestructura, el problema de la traducción estaría resuelto.

Sin embargo, como suele ocurrir, la teoría dista mucho de la práctica y, por ello, los resultados de los sistemas que se basaban en esta teoría no han sido muy buenos(2). Abaitua cita a Melby, que duda de la existencia de unidades conceptuales universales (los universales es otro concepto habitual en Traductología) e incluso llega a decir que esta teoría (y también puede deducirse que la de la subestructura) es utópica de cara a la traducción automática. Además, el problema de los giros idiomáticos (fórmulas, frases hechas...) tampoco parece haberse solucionado (puesto que son expresiones más bien dinámicas que, por lo tanto, no pueden estar recogidas por completo en diccionarios, que son más bien estáticos y las recogen de forma homogénea y sistemática).

Después de este análisis tan exhaustivo, Abaitua pasa a hablar del TMX (acrónimo del inglés Translation Memory eXchange), formato habitual de las memorias de traducción que facilita el intercambio de estas entre distintos programas de traducción asistida y que, por lo tanto, es el más recomendado para guardar una memoria de traducción.

Las memorias de traducción recogen un corpus que contiene una serie de textos paralelos; es importante disponer de buenos textos paralelos puesto que, en ese caso, será «posible obtener porcentajes cercanos al 100% para la alineación tanto de palabras como de oraciones. [...] [De hecho,] un corpus alineado y anotado constituye una memoria de traducción [...] (MMT), una tecnología alternativa a la traducción de base semántica [es decir, la tradicional que se ha hecho siempre] y tiene su origen en una propuesta de Nagao (1984) llamada traducción "por ejemplos"»(3). No continuaré profundizando en el concepto de memoria de traducción, pues ya le dediqué una entrada, pero quería reflejar las palabras de esta autor, puesto que la resume de forma clara y sencilla. Estas memorias de traducción, por lo tanto, traducen por analogías y, aunque hay que tener cuidado con ellas, pueden llegar a ser muy útiles para el traductor.

El problema de las memorias de traducción, sin embargo, es que primero hay que alimentarlas de textos, proceso largo y laborioso, además de que hay que alinear cada segmento de cada texto, como explicaré en la siguiente entrada que sirve de complemento a esta.

A lo que quería llegar con esto es a lo mismo a lo que llega Abaitua: tras hablar del copyleft (es decir, que garantiza la distribución mediante términos legales, sin que nadie pueda alterar dicha condición de libre distribución) y del software libre (más adelante, mencionaré un blog bastante útil que recoge muchos programas de traducción de este tipo), menciona la existencia de recopilaciones de obras literarias y de traducciones, como el proyecto Gutenberg o la Biblioteca Virtual Cervantes (como curiosidad, existe un proyecto similar de obras en lengua japonesa llamado 青空文庫, aozora bunko, 'Colección del cielo azul'), que recogen textos cuyos derechos de autor ya han caducado y que podrían utilizarse como buenos corpus. Si a esto le añadimos que podrían existir motores de búsqueda similares a Google, pero especializados en la búsqueda de corpus multilingües, las memorias de traducción se verían alimentadas a una gran velocidad y, lo que es mejor, de forma muy eficaz. Sin embargo, para que esto sea posible, autores, traductores y editores deberían permitir la libre circulación de sus trabajos, que deberían estar disponibles en internet; para que llegue este momento, me temo que todavía queda mucho y más dado el actual debate que hay sobre la propiedad intelectual...

En conclusión, creo que, por ahora, cada traductor tendrá que alimentar su propia memoria de traducción, lo que será más costoso en términos de tiempo y esfuerzo, y, además, esta memoria de traducción no será lo completa que sería si contara con textos de todo el mundo, hechos por todo tipo de personas... Como en muchos otros ámbitos, estamos muy lejos de alcanzar esta «riqueza» y, por ahora (aunque sí es verdad que hemos avanzado mucho), cada uno tendrá que apañárselas como pueda.

___________________

(1) Abaitua, Joseba: «Memorias de traducción en TMX compartidas por Internet». Accesible en: http://webs2002.uab.es/tradumatica/revista/num0/articles/jabaitua/central.htm [Consulta: 22/III/2012]
(2) Abaitua, Joseba: op. cit.
(3) Abaitua, Joseba: op. cit.

sábado, 17 de marzo de 2012

La importancia de la gestión de proyectos

A pesar de que ya hablé detenidamente sobre la gestión de proyectos en esta entrada, me gustaría añadir algunos comentarios sobre lo importante que es esta tarea.

La gestión de proyectos, como ya dije, es fundamental, ya que una buena organización y una buena planificación permitirán que el proyecto de traducción se entregue a tiempo sin haberlo hecho «deprisa y corriendo», lo que repercutirá en una mejor calidad de este y en que el cliente quedará contento y volverá a llamarnos (fundamental, y más en los tiempos que corren).

Lo que quería decir a propósito de la gestión de proyectos es que es importantísima, pues también hay muchas ofertas de trabajo de gestor de proyectos (no solo de la traducción vive el traductor, pues también puede dedicarse, y tendrá que hacerlo, a otras actividades relacionadas con esta). Saber hacer una gestión de proyectos de forma adecuada es, por lo tanto, fundamental, pero para hacer una buena gestión de proyectos es recomendable utilizar otros programas más específicos y no limitarse a Excel que, aunque sirve perfectamente (y que es un programa muy versátil, todo hay que decirlo), pueden sustituirlo otros programas destinados sola y exclusivamente a la gestión de proyectos.

Así, un ejemplo de un programa con el que se pueden realizar gestiones de proyectos de forma sencilla y rápida es OpenProj, equivalente al MS Project de Microsoft, y que pudimos probar en clase. Este programa resulta muy útil, puesto que solo hay que escribir el tiempo que se emplea en realizar cada tarea (previamente indicada) y, asimismo, pueden relacionarse las distintas tareas en función de si se hacen de forma simultánea o de si unas subtareas (llamadas «hijas») dependen de otras (llamadas «padres»):

Captura de OpenProj en el momento en el que se define qué tareas dependen

de otras.

... De forma que se establece qué tarea tiene que haber terminado para que pueda comenzar a realizarse la siguiente:

Captura de OpenProj, en el momento en el que se señalan los
predecesores, esto es, qué tarea debe estar terminada para que
pueda comenzar la tarea seleccionada (por ejemplo, no se
puede empezar a corregir hasta que no se haya traducido).

Aunque parezca complicado, si se indican estos parámetros, el programa calcula cuánto tiempo se tardará en realizar cada tarea por separado y la totalidad de las tareas (que también pueden organizarse en grupos), lo que resulta muy útil para el gestor de proyectos:

Esto último también se puede indicar de forma manual mediante el diagrama de la derecha, que es el que muestra de forma gráfica la duración total del proyecto:

Solo hay que hacer clic y unir la subtarea con la tarea de la que

depende para establecer cuándo podrá empezar.

Como puede verse, la gestión de proyectos mediante este programa es muy sencilla y nos permitirá saber de forma exacta cuándo terminará el proyecto de traducción (aunque claro, como ya dije, pueden surgir imprevistos...) sin tener que calcularlo manualmente, lo que supone un gran ahorro de tiempo para el gestor de proyectos. La gestión de proyectos es, por lo tanto, de vital importancia, y el manejo de programas tan sencillos como este nos abrirá muchas puertas.

domingo, 11 de marzo de 2012

La preedición y la posedición en las traducciones automáticas

Cómo el traductor puede intentar anticiparse a los errores del traductor automático

Las tareas de preedición y posedición se realizan para mejorar, por una parte, la calidad de la traducción realizada de forma automática y, por otra, la productividad del propio traductor. Esto pudimos ponerlo en práctica el otro día en un ejercicio de clase.

¿En qué consisten? Por una parte, con la preedición, el traductor analiza el texto original y señala aquellas palabras, construcciones... que puedan generar problemas al traducirlo de forma automática para, después, modificarlas y hacerlas más fáciles para el programa. Esto se hace para que al traductor automático le cueste menos detectar determinadas estructuras y para que las traduzca de forma correcta, es decir, sin cometer errores de traducción. Esto supone, como ya he dicho, una mejora de la productividad del traductor, puesto que al predecir los errores que puede cometer el traductor automático, consigue ahorrarse la corrección posterior que tendría que realizar (puesto que los textos traducidos de forma automática suelen tener errores de traducción, como ya pudimos ver en esta entrada). El traductor se anticipa a las dificultades con las que se va a encontrar la herramienta de traducción automática y esto repercute en la calidad de la traducción y en el tiempo que se ahorrará corrigiendo dicha traducción. Por otra parte, la posedición (o postedición) consistiría en corregir los errores del texto meta (de la traducción que ha realizado el traductor automático).

También puedo ofreceros la definición de la preedición y de la posedición que figura en una entrada que se le dedica en la página web del Servicio de Traducción Universitario:

La preedición y posedición de textos son actividades asociadas a la traducción automática. La necesidad de acceder a la información, como consecuencia directa de la globalización, ha forzado al mundo de la traducción a recurrir a la traducción automática. Esto, ha originado la necesidad de preeditar los textos que se van a traducir para luego poseditarlos tras la generación automática de la traducción.

La preedición consiste en modificar el texto origen hasta que el texto meta tenga sentido.

La posedición consiste en modificar el producto de la traducción automática para obtener un texto aceptable de acuerdo con los diferentes usos de la misma. (1)

A propósito de estas tareas de preedición y posedición he estado leyendo algunos artículos. Así, por ejemplo, me gustaría comentar unos relacionados con el lenguaje controlado, muy relacionado con lo que nos ocupa y que podríamos definir de la siguiente forma:

Controlled Natural Languages are subsets of natural languages whose grammars and dictionaries have been restricted in order to reduce or eliminate both ambiguity and complexity. Traditionally, controlled natural languages fall into two major categories: those that improve the readability for human readers, in particularly for non-native speakers, and those that improve the computational processing of a text. (2)

Es decir, sirven para hacer que el texto que va a traducir el traductor automático sea más sencillo y para que así la herramienta de traducción automática no se encuentre con ningún tipo de ambigüedad ni de dificultad y que no cometa por ello ningún error de traducción. El lenguaje controlado pertenecería, por lo tanto, a la tarea de preedición (también habla de otro tipo de lenguaje controlado, el destinado a hablantes no nativos, pero ese no nos interesa en este caso).

Volviendo a los artículos, podría destacar dos. El primero, «Controlling Controlled English», engloba las distintas reglas que utilizan varias organizaciones o empresas que utilizan el «inglés controlado». Así, llegan a ciertas reglas comunes, como hacer que las instrucciones sean lo más específicas posibles, no escribir sintagmas de más de tres sustantivos (si este tipo de estructuras dan problemas en muchas ocasiones al traductor humano, no hablemos de lo difícil que sería para un traductor automático...), utilizar un artículo determinado o indeterminado, o un demostrativo antes de un sustantivo, evitar el gerundio (pues al traductor automático le cuesta más localizar el sujeto de este gerundio, pues no se expresa y habría que recurrir al contexto), utilizar la voz pasiva (también es más sencilla para el traductor automático) y utilizar los pronombres relativos (también para que sea más claro para el traductor automático). (3) Sin embargo, por encima de todo, las oraciones deben ser lo más cortas posible. Todo esto repercutirá en que la traducción automática que se realice tenga una mejor calidad.

También a propósito de la extensión de los segmentos que se van a traducir de forma automática se encuentra el segundo artículo, «Correlation between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors», en el que se realiza un análisis muy interesante entre la traducción automática de determinados segmentos del inglés al japonés (quise haber realizado un análisis similar el año pasado, en Traducción Automática, basándome en la traducción del japonés al español de cuentos infantiles realizada por el programa de traducción automática Systran, pero me quedé con las ganas debido a que dicho programa solo traducía al japonés desde el inglés y viceversa, además de que la traducción que realizó dejaba mucho que desear).

En este artículo se habla de la extensión y de la estructura del texto origen. Así, por una parte, en cuanto a la extensión del texto origen, afirman que las oraciones demasiado largas son difíciles para los traductores (humanos y automáticos) debido a su complejidad gramática y semántica, pero que las oraciones demasiado cortas tienen la desventaja de que carecen de contexto, lo que también da problemas de comprensión a los traductores (también humanos y automáticos). Por otra parte, en cuanto a la estructura, el autor habla de tres tipos de estructuras, oración simple (simple sentence), oración compuesta (compound sentence), que contiene varias oraciones (o proposiciones) coordinadas, y oración compleja (complex sentence), que contiene varias oraciones (o proposiciones) subordinadas. Sin embargo, añade otro tipo de oración, que es muy frecuente en documentos de tipo técnico, la oración incompleta (incomplete sentence), que no pertenece a ninguno de los tipos anteriores (un ejemplo sería File size o If there is no more than one page of search results). (4)

De esto se podría concluir que siempre va a haber dificultades para el traductor automático, por lo que hay que preparar el texto origen lo mejor posible, teniendo en cuenta las clasificaciones anteriores. Por otra parte, aunque me parece útil (y nueva) la comparación entre el inglés y el japonés, este estudio debería centrarse más en la parte sintáctica que en la léxica, puesto que muchas veces (aunque no siempre) lo que hace el traductor automático es japonizar las palabras inglesas (es decir, adaptarlas a la lengua japonesa), que es precisamente lo que hace la lengua japonesa con las palabras extranjeras. Por ejemplo, en el artículo podemos ver el siguiente ejemplo:

EN: Downloading items to your vault cache

JA-MT: ボルトキャッシュへのダウンロードのアイテム
[Items for downloading to your vault cache; literalmente, 'artículos de descarga para la vault cache']

JA-PE: ボールトキャッシュへのアイテムのダウンロード
[Downloading items to your vault cache; literalmente, 'descarga de los artículos para la vaul cache'] (5)

El único ejercicio que debe realizar aquí el traductor automático es de tipo sintáctico, puesto que el de tipo léxico solo consiste a transliterar al japonés todas las palabras inglesas (downloading, items, vault cache). De todas formas, creo que la única forma de solucionar los errores de léxico es aumentar la memoria de traducción, como pude comprobar con el ejercicio de preedición y posedición de un manual de automóviles que tuvimos que realizar en clase.

La conclusión de esta entrada es que, por mucho que el traductor se anticipe a los errores, la herramienta de traducción automática siempre nos sorprenderá de alguna forma y siempre cometerá errores de algún tipo, aunque tenemos que pensar que, al igual que los traductores automáticos no son perfectos, nosotros tampoco lo somos...

Resultado final de la preedición y de la posedición: por mucho que procuremos
anticiparnos a los errores de traducción, nunca podrán evitarse todos.

______________________

(1) «Preedición y postedición» en Servicio de Traducción Universitario, accesible en: http://www.stu-traductores.es/index.php/es/tarifas/revision-de-textos/preedicion-y-postedicion [Consulta: 11/III/2012] Para más información, vid. «Printable version of FEMTI», accesible en: http://www.issco.unige.ch:8080/cocoon/femti/printable.html [Consulta: 11/III/2012], donde se habla, a partir del apartado 2.4.1.2. Pre-processing time, de los procesos de preedición y posedición.
(2) «Controlled natural languages», accesible en https://sites.google.com/site/controllednaturallanguage/. [Consulta: 11/III/2012]
(3) O'Brien, Sharon: «Controlling Controlled English. An Analysis of Several Controlled Language Rule Sets», accesible en: http://www.mt-archive.info/CLT-2003-Obrien.pdf [Consulta: 11/III/2012], pp. 6 y 7.
(4) Tatsumi, Midori: «Correlation between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors», accesible en: http://www.mt-archive.info/MTS-2009-Tatsumi.pdf [Consulta: 11/III/2012]

miércoles, 7 de marzo de 2012

Memorias de traducción: ¿amigo o enemigo?

Las memorias de traducción se han convertido en una herramienta fundamental para el traductor

Página principal

Autora

Fuentes citadas

Blogs sobre traducción

Conclusiones