lunes, 2 de abril de 2012

La extracción de términos

Cómo realizar de forma casi automática la extracción de términos para así crear un glosario ad hoc

El otro día en clase comenzamos un tema nuevo a propósito de la extracción terminológica. Como sabréis, la extracción terminológica consiste, grosso modo, en seleccionar de varios textos especializados de un tema concreto aquellas palabras que puedan considerarse términos (es decir, palabras especializadas de un ámbito determinado) y que, por lo tanto, deban incluirse en un glosario. 

La elaboración de un glosario resulta fundamental, como hemos ido aprendiendo a lo largo de la carrera. Estos glosarios nunca terminan de crearse (en mi glosario de traducción económica, por ejemplo, tengo incluidos más de mil trescientos términos y este glosario crece día a día) y son muy útiles para el traductor, que se ahorra tener que volver a buscar un término cuya traducción ya había encontrado en diccionarios o en internet, pero que no recordaba.

Sin embargo, disponer de glosarios no es solo útil para la traducción de textos que pertenecen a un determinado ámbito, sino que también es importante disponer de glosarios creados especialmente para el texto que se va a traducir (lo que se conoce como glosario ad hoc, tal y como aprendimos el año pasado en la asignatura de Terminología). De esta forma, cuando se trate de proyectos grandes en cuanto al número de palabras del texto o en cuanto al número de personas (en concreto, traductores) que trabajen en él, crear un glosario es imprescindible, puesto que:

  • Resulta muy útil para la traducción en general (ahorra al traductor tener que buscar la traducción de los términos en distintas fuentes).
  • Crea coherencia interna en el texto, de forma que, aunque participen varios traductores en el proyecto, todos traducirán de la misma forma los términos que estén incluidos en el glosario lo que, a su vez, evitará al corrector el proceso de corregir el texto con la finalidad de conseguir dicha coherencia.
  • Aunque se emplea tiempo en hacer estos glosarios, este tiempo es una inversión, puesto que precisamente ahorra tiempo al traductor a lo largo del proceso de traducción.
  • El cliente puede aprobar o comentar dicho glosario, de forma que podría cambiar algún término si lo considerara necesario, por que también se ganaría tiempo y el revisor se ahorraría una gran parte de la corrección del texto.
... Y seguro que me olvido de algún punto, puesto que las ventajas de disponer de un buen glosario son muy numerosas. Lo importante es que, por lo tanto, aunque durante el proceso de extracción terminológica dé la sensación de que se está perdiendo el tiempo, la verdad es que sí se ahorra mucho tiempo y, como he dicho en varias ocasiones, ahorrar tiempo y ser lo más eficaz posible son dos aspectos fundamentales en el traductor.

En cuanto a la aplicación práctica de esta teoría, en clase vimos el programa Lexterm, una herramienta de código abierto que permite la extracción terminológica (aunque hay que tener en cuenta que muchos programas de memorias de traducción tienen incluidos este tipo de programas como una prestación más).

Hay que tener en cuenta que existen el léxico y la base de datos terminológica. El léxico está asociado a un determinado proyecto y desaparece cuando termina dicho proyecto (sirve como herramienta intermediaria para garantizar y facilitar la calidad de la traducción). Una vez terminado el proyecto, el léxico pasaría a la base de datos terminológica, el contenedor que abarcaría todas las traducciones y términos, que estarían etiquetados por tema, cliente... como he explicado en distintas entradas.

Captura de pantalla del programa de extracción terminológica
Lexterm (en este caso, los parámetros para la discriminación
de palabras no han sido muy estrictos). El programa también
permite ver las palabras en su contexto, lo que ayuda al 
traductor a decidir si debe o no considerar esas palabras
como términos.
Lexterm extrae todas las palabras de un texto que considere términos aunque, en realidad, ningún programa de este tipo realiza la extracción terminológica de forma automática, puesto que es tarea del traductor discriminar, decidiendo qué palabras deben ser términos y cuáles, no. Sin embargo, sí que se puede orientar al programa; por ejemplo, se le puede indicar que no considere términos las palabras conocidas como stopwords (es decir, palabras vacías de contenido; en internet existen muchos listados de este tipo de palabras aunque, normalmente, estas listas ya vienen incluidas en el programa de extracción terminológica), que solo considere términos aquellas palabras que se repitan un determinado número de veces (especialmente útil para textos largos, aunque hay que tener en cuenta que si hay una variación, aunque mínima, en los términos, ya no los considerará como el mismo término, como en el caso de cambio de aceite y cambio del aceite, tal y como vimos en clase) o que, incluso, solo considere términos los sintagmas formados por un número determinado de palabras (por ejemplo, una, aceite, o tres, cambio de aceite, por seguir con el ejemplo, aunque aceite, en general, no sería término, claro).

Por último, una vez seleccionados los términos (a la izquierda de cada uno hay una pequeña casilla en la que puede ponerse una marca de verificación o tick), puede añadirse su traducción correspondiente (de forma manual o de forma automática, para lo que habría que importar un corpus paralelo en vez de uno monolingüe) y, a continuación, guardarlo en formato .txt, del que ya he hablado (como veréis, este formato es muy útil y sirve para una gran variedad de programas y aplicaciones). Este formato puede abrirse con el bloc de notas; en este documento aparecerá el término con su correspondiente traducción, separados por un espacio.

Antes de la pequeña conclusión, me gustaría hablar de una nueva utilidad muy relacionada con la extracción terminológica, la Manypedia (puede leerse una breve descripción de esta utilidad en una entrada del blog de la asignatura de Informática Aplicada a la Traducción), que permite comparar los distintos puntos de vista lingüísticos que ofrecen los artículos de la Wikipedia, tanto desde el punto de vista puramente lingüístico como desde el cultural, es decir, cómo distintas culturas ven determinados hechos o conceptos; además, he de decir que la Wikipedia me sirve, en muchas ocasiones, para saber cómo se traducen algunos términos (aunque siempre hay que tener cuidado con su fiabilidad, claro). La Wikipedia podría considerarse, por lo tanto, como otra pequeña herramienta (de consulta) terminológica.

Como conclusión, me gustaría decir que los programas de extracción terminológica son muy útiles, pues le ahorran al traductor mucho tiempo en el proyecto y, además, sirven para mejorar la calidad de la traducción, para homogeneizarla y para, por cierto, ahorrarle también tiempo al corrector. De hecho, si el año pasado hubiera sabido de la existencia de este tipo de programas, habría podido utilizarlos para las asignaturas de Terminología y, en mi caso concreto, me habría facilitado la tarea de crear una base de datos  terminológica sobre los dispositivos termoiónicos... Lo que quiero decir con esto es que la asignatura de Informática Aplicada a la Traducción es fundamental para cualquier estudiante de traducción y, por lo tanto, debería impartirse antes (no en cuarto curso, cuando estamos con un pie fuera, como quien dice) y no debería limitarse a un cuatrimestre: seguro que, así, tendríamos mayores conocimientos informáticos para aplicarlos a la traducción y, por ello, seríamos más eficientes y eficaces en el proceso de la traducción, y nuestras traducciones serían, a la larga, mucho mejores...

0 comentarios:

Publicar un comentario

Gracias por leer esta entrada. Si tienes alguna duda o si quieres dar tu opinión, agradecería mucho que dejaras un comentario.

¡Muchas gracias!