Cómo el traductor puede intentar anticiparse a los errores del traductor automático
Las tareas de preedición y posedición se realizan para mejorar, por una parte, la calidad de la traducción realizada de forma automática y, por otra, la productividad del propio traductor. Esto pudimos ponerlo en práctica el otro día en un ejercicio de clase.
¿En qué consisten? Por una parte, con la preedición, el traductor analiza el texto original y señala aquellas palabras, construcciones... que puedan generar problemas al traducirlo de forma automática para, después, modificarlas y hacerlas más fáciles para el programa. Esto se hace para que al traductor automático le cueste menos detectar determinadas estructuras y para que las traduzca de forma correcta, es decir, sin cometer errores de traducción. Esto supone, como ya he dicho, una mejora de la productividad del traductor, puesto que al predecir los errores que puede cometer el traductor automático, consigue ahorrarse la corrección posterior que tendría que realizar (puesto que los textos traducidos de forma automática suelen tener errores de traducción, como ya pudimos ver en esta entrada). El traductor se anticipa a las dificultades con las que se va a encontrar la herramienta de traducción automática y esto repercute en la calidad de la traducción y en el tiempo que se ahorrará corrigiendo dicha traducción. Por otra parte, la posedición (o postedición) consistiría en corregir los errores del texto meta (de la traducción que ha realizado el traductor automático).
También puedo ofreceros la definición de la preedición y de la posedición que figura en una entrada que se le dedica en la página web del Servicio de Traducción Universitario:
La preedición y posedición de textos son actividades asociadas a la traducción automática. La necesidad de acceder a la información, como consecuencia directa de la globalización, ha forzado al mundo de la traducción a recurrir a la traducción automática. Esto, ha originado la necesidad de preeditar los textos que se van a traducir para luego poseditarlos tras la generación automática de la traducción.
La preedición consiste en modificar el texto origen hasta que el texto meta tenga sentido.
La posedición consiste en modificar el producto de la traducción automática para obtener un texto aceptable de acuerdo con los diferentes usos de la misma. (1)
A propósito de estas tareas de preedición y posedición he estado leyendo algunos artículos. Así, por ejemplo, me gustaría comentar unos relacionados con el lenguaje controlado, muy relacionado con lo que nos ocupa y que podríamos definir de la siguiente forma:
Es decir, sirven para hacer que el texto que va a traducir el traductor automático sea más sencillo y para que así la herramienta de traducción automática no se encuentre con ningún tipo de ambigüedad ni de dificultad y que no cometa por ello ningún error de traducción. El lenguaje controlado pertenecería, por lo tanto, a la tarea de preedición (también habla de otro tipo de lenguaje controlado, el destinado a hablantes no nativos, pero ese no nos interesa en este caso).
Volviendo a los artículos, podría destacar dos. El primero, «Controlling Controlled English», engloba las distintas reglas que utilizan varias organizaciones o empresas que utilizan el «inglés controlado». Así, llegan a ciertas reglas comunes, como hacer que las instrucciones sean lo más específicas posibles, no escribir sintagmas de más de tres sustantivos (si este tipo de estructuras dan problemas en muchas ocasiones al traductor humano, no hablemos de lo difícil que sería para un traductor automático...), utilizar un artículo determinado o indeterminado, o un demostrativo antes de un sustantivo, evitar el gerundio (pues al traductor automático le cuesta más localizar el sujeto de este gerundio, pues no se expresa y habría que recurrir al contexto), utilizar la voz pasiva (también es más sencilla para el traductor automático) y utilizar los pronombres relativos (también para que sea más claro para el traductor automático). (3) Sin embargo, por encima de todo, las oraciones deben ser lo más cortas posible. Todo esto repercutirá en que la traducción automática que se realice tenga una mejor calidad.
También a propósito de la extensión de los segmentos que se van a traducir de forma automática se encuentra el segundo artículo, «Correlation between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors», en el que se realiza un análisis muy interesante entre la traducción automática de determinados segmentos del inglés al japonés (quise haber realizado un análisis similar el año pasado, en Traducción Automática, basándome en la traducción del japonés al español de cuentos infantiles realizada por el programa de traducción automática Systran, pero me quedé con las ganas debido a que dicho programa solo traducía al japonés desde el inglés y viceversa, además de que la traducción que realizó dejaba mucho que desear).
En este artículo se habla de la extensión y de la estructura del texto origen. Así, por una parte, en cuanto a la extensión del texto origen, afirman que las oraciones demasiado largas son difíciles para los traductores (humanos y automáticos) debido a su complejidad gramática y semántica, pero que las oraciones demasiado cortas tienen la desventaja de que carecen de contexto, lo que también da problemas de comprensión a los traductores (también humanos y automáticos). Por otra parte, en cuanto a la estructura, el autor habla de tres tipos de estructuras, oración simple (simple sentence), oración compuesta (compound sentence), que contiene varias oraciones (o proposiciones) coordinadas, y oración compleja (complex sentence), que contiene varias oraciones (o proposiciones) subordinadas. Sin embargo, añade otro tipo de oración, que es muy frecuente en documentos de tipo técnico, la oración incompleta (incomplete sentence), que no pertenece a ninguno de los tipos anteriores (un ejemplo sería File size o If there is no more than one page of search results). (4)
Controlled Natural Languages are subsets of natural languages whose grammars and dictionaries have been restricted in order to reduce or eliminate both ambiguity and complexity. Traditionally, controlled natural languages fall into two major categories: those that improve the readability for human readers, in particularly for non-native speakers, and those that improve the computational processing of a text. (2)
Es decir, sirven para hacer que el texto que va a traducir el traductor automático sea más sencillo y para que así la herramienta de traducción automática no se encuentre con ningún tipo de ambigüedad ni de dificultad y que no cometa por ello ningún error de traducción. El lenguaje controlado pertenecería, por lo tanto, a la tarea de preedición (también habla de otro tipo de lenguaje controlado, el destinado a hablantes no nativos, pero ese no nos interesa en este caso).
Volviendo a los artículos, podría destacar dos. El primero, «Controlling Controlled English», engloba las distintas reglas que utilizan varias organizaciones o empresas que utilizan el «inglés controlado». Así, llegan a ciertas reglas comunes, como hacer que las instrucciones sean lo más específicas posibles, no escribir sintagmas de más de tres sustantivos (si este tipo de estructuras dan problemas en muchas ocasiones al traductor humano, no hablemos de lo difícil que sería para un traductor automático...), utilizar un artículo determinado o indeterminado, o un demostrativo antes de un sustantivo, evitar el gerundio (pues al traductor automático le cuesta más localizar el sujeto de este gerundio, pues no se expresa y habría que recurrir al contexto), utilizar la voz pasiva (también es más sencilla para el traductor automático) y utilizar los pronombres relativos (también para que sea más claro para el traductor automático). (3) Sin embargo, por encima de todo, las oraciones deben ser lo más cortas posible. Todo esto repercutirá en que la traducción automática que se realice tenga una mejor calidad.
También a propósito de la extensión de los segmentos que se van a traducir de forma automática se encuentra el segundo artículo, «Correlation between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors», en el que se realiza un análisis muy interesante entre la traducción automática de determinados segmentos del inglés al japonés (quise haber realizado un análisis similar el año pasado, en Traducción Automática, basándome en la traducción del japonés al español de cuentos infantiles realizada por el programa de traducción automática Systran, pero me quedé con las ganas debido a que dicho programa solo traducía al japonés desde el inglés y viceversa, además de que la traducción que realizó dejaba mucho que desear).
En este artículo se habla de la extensión y de la estructura del texto origen. Así, por una parte, en cuanto a la extensión del texto origen, afirman que las oraciones demasiado largas son difíciles para los traductores (humanos y automáticos) debido a su complejidad gramática y semántica, pero que las oraciones demasiado cortas tienen la desventaja de que carecen de contexto, lo que también da problemas de comprensión a los traductores (también humanos y automáticos). Por otra parte, en cuanto a la estructura, el autor habla de tres tipos de estructuras, oración simple (simple sentence), oración compuesta (compound sentence), que contiene varias oraciones (o proposiciones) coordinadas, y oración compleja (complex sentence), que contiene varias oraciones (o proposiciones) subordinadas. Sin embargo, añade otro tipo de oración, que es muy frecuente en documentos de tipo técnico, la oración incompleta (incomplete sentence), que no pertenece a ninguno de los tipos anteriores (un ejemplo sería File size o If there is no more than one page of search results). (4)
De esto se podría concluir que siempre va a haber dificultades para el traductor automático, por lo que hay que preparar el texto origen lo mejor posible, teniendo en cuenta las clasificaciones anteriores. Por otra parte, aunque me parece útil (y nueva) la comparación entre el inglés y el japonés, este estudio debería centrarse más en la parte sintáctica que en la léxica, puesto que muchas veces (aunque no siempre) lo que hace el traductor automático es japonizar las palabras inglesas (es decir, adaptarlas a la lengua japonesa), que es precisamente lo que hace la lengua japonesa con las palabras extranjeras. Por ejemplo, en el artículo podemos ver el siguiente ejemplo:
EN: Downloading items to your vault cache
JA-MT: ボルトキャッシュへのダウンロードのアイテム
[Items for downloading to your vault cache; literalmente, 'artículos de descarga para la vault cache']
JA-PE: ボールトキャッシュへのアイテムのダウンロード
[Downloading items to your vault cache; literalmente, 'descarga de los artículos para la vaul cache'] (5)
El único ejercicio que debe realizar aquí el traductor automático es de tipo sintáctico, puesto que el de tipo léxico solo consiste a transliterar al japonés todas las palabras inglesas (downloading, items, vault cache). De todas formas, creo que la única forma de solucionar los errores de léxico es aumentar la memoria de traducción, como pude comprobar con el ejercicio de preedición y posedición de un manual de automóviles que tuvimos que realizar en clase.
La conclusión de esta entrada es que, por mucho que el traductor se anticipe a los errores, la herramienta de traducción automática siempre nos sorprenderá de alguna forma y siempre cometerá errores de algún tipo, aunque tenemos que pensar que, al igual que los traductores automáticos no son perfectos, nosotros tampoco lo somos...
La conclusión de esta entrada es que, por mucho que el traductor se anticipe a los errores, la herramienta de traducción automática siempre nos sorprenderá de alguna forma y siempre cometerá errores de algún tipo, aunque tenemos que pensar que, al igual que los traductores automáticos no son perfectos, nosotros tampoco lo somos...
Resultado final de la preedición y de la posedición: por mucho que procuremos anticiparnos a los errores de traducción, nunca podrán evitarse todos. |
______________________
(1) «Preedición y postedición» en Servicio de Traducción Universitario, accesible en: http://www.stu-traductores.es/index.php/es/tarifas/revision-de-textos/preedicion-y-postedicion [Consulta: 11/III/2012] Para más información, vid. «Printable version of FEMTI», accesible en: http://www.issco.unige.ch:8080/cocoon/femti/printable.html [Consulta: 11/III/2012], donde se habla, a partir del apartado 2.4.1.2. Pre-processing time, de los procesos de preedición y posedición.
(2) «Controlled natural languages», accesible en https://sites.google.com/site/controllednaturallanguage/. [Consulta: 11/III/2012]
(3) O'Brien, Sharon: «Controlling Controlled English. An Analysis of Several Controlled Language Rule Sets», accesible en: http://www.mt-archive.info/CLT-2003-Obrien.pdf [Consulta: 11/III/2012], pp. 6 y 7.
(4) Tatsumi, Midori: «Correlation between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors», accesible en: http://www.mt-archive.info/MTS-2009-Tatsumi.pdf [Consulta: 11/III/2012]
(2) «Controlled natural languages», accesible en https://sites.google.com/site/controllednaturallanguage/. [Consulta: 11/III/2012]
(3) O'Brien, Sharon: «Controlling Controlled English. An Analysis of Several Controlled Language Rule Sets», accesible en: http://www.mt-archive.info/CLT-2003-Obrien.pdf [Consulta: 11/III/2012], pp. 6 y 7.
(4) Tatsumi, Midori: «Correlation between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors», accesible en: http://www.mt-archive.info/MTS-2009-Tatsumi.pdf [Consulta: 11/III/2012]
0 comentarios:
Publicar un comentario
Gracias por leer esta entrada. Si tienes alguna duda o si quieres dar tu opinión, agradecería mucho que dejaras un comentario.
¡Muchas gracias!