A la caza del plagio en las traducciones

El algoritmo creado por investigadores de la Politécnica de Valencia "aprende" cuáles son los cambios de un idioma a otro a partir de grandes colecciones de documentos

En la Sociedad de la Información es muy fácil perder el origen inicial de una idea, un texto o un tratado. Para mejorar la calidad de la información que proporcionan los motores de búsqueda, expertos del Laboratorio de Ingeniería en Lenguaje Natural (Lab NLE), integrado en el Grupo de Ingeniería del Lenguaje Natural y Reconocimiento de Formas (ELiRF ) de la Universitat Politècnica de València han desarrollado un nuevo método para la detección automática de textos plagiados y, en concreto, de plagio traducido, dentro del proyecto Text-Enterprise 2.0, financiado por el Ministerio de Ciencia e Innovación.

Los resultados del trabajo se publicaron en febrero en Languages Resources and Evaluation Journal. "En nuestros días, el problema del plagio, en particular el de texto, se ha incrementado debido al fácil acceso a grandes fuentes de información a través de medios electrónicos. Desafortunadamente, su detección es prácticamente imposible de forma manual. Por ello, es importante desarrollar mecanismos automatizados que permitan realizar la tarea de detección de plagio y así combatir la creciente tentación de plagiar desde la web", apunta Paolo Rosso, investigador del Lab NLE y padre del proyecto de investigación junto al estudiante de doctorado Alberto Barrón-Cedeño.

El equipo trabaja con un "corpus de Tratados de la Unión Europea, prácticamente en todos los idiomas más usados. Del inglés al español, del inglés al alemán, al holandés, al francés y al polaco, pero no aún en valenciano. Se trata de un algoritmo o programa, que aprende posibles traducciones del inglés al castellano", explica Rosso. "Al algoritmo se le pasa un cantidad bastante grande de pares de traducciones de un idioma a otro y cuando se le programa un texto traducido al castellano, por ejemplo, la base de datos donde está la fuente en inglés detecta cuántos similares o partes de ese texto hay en la traducción con respecto a la fuente".

El programa, por tanto, no depende de un traductor. Sino que aprende de las posibles traducciones; es decir, de los pares en los dos idiomas que se analicen. "El plagio traducido se hace más frecuente cuando la información que se busca no está disponible en la Web en el idioma materno, por ejemplo el castellano. Si la detección de plagio en una misma lengua es de por sí complicada, ya que una persona puede modificar el texto original, cuando este cambio implica un cambio de lengua la dificultad es aún mayor. Pocos son los métodos que han sido desarrollados para abordar este tipo de plagio", añade Rosso.

El modelo creado por los investigadores de la UPV se basa concretamente en modelos de traducción estadística, que "aprenden" cuáles son las potenciales traducciones de un texto de un idioma a otro a partir de grandes colecciones de documentos. "Con lo aprendido es posible calcular la similitud entre textos escritos en distintos idiomas y, si esta similitud es muy alta, se puede sospechar de la existencia de un caso de plagio traducido", apunta Barrón-Cedeño.

Entre las aplicaciones figura la investigación forense. "El objetivo es proporcionar la evidencia necesaria para que un experto tenga las mejores condiciones posibles para tomar una decisión final respecto a si ha habido o no plagio", describe Rosso. El profesor imparte la semana próxima un curso de detección de plagio para los alumnos del Master de Lingüística Forense de la Universitat Pompeu Fabra, pero clarifica que los lingüistas computacionales no tienen la presunción de sustituir a los lingüistas forenses. "Pero como el plagio se puede hacer desde la web (copiar y pegar), es más difícil que el forense pueda rastrear todas las similitudes en diferentes fragmentos de textos supuestamente plagiados", puntualiza el investigador. "Nosotros como lingüistas computacionales proporcionamos un subcojunto amplio de posibles fuentes de documentos a partir de los cuales se ha producido el presunto plagio".

En el marco de esta línea de investigación, el Lab NLE de la UPV ha organizado, conjuntamente con la Bauhaus Universitat Weimar (Alemania), y por tercer año consecutivo, una competición internacional sobre detección automática de plagio, patrocinada por Yahoo! Research. La próxima cita tendrá lugar en Amsterdam en septiembre, dentro del foro europeo de evaluación del CLEF.

Archivado En