Algoritmos que detectan si un texto lo ha escrito un humano… u otro algoritmo

La Universidad de Harvard y el MIT-IBM Watson AI Lab han desarrollado una herramienta que podría ayudar a detectar noticias generadas por ordenador

Madrid - 03 ago 2019 - 09:44CEST

La inteligencia artificial es esa tecnología multidisciplinar y sabelotodo que presume de poder hacer cualquier cosa que se te da bien, pero mil veces mejor que tú. ¿Te gustan los videojuegos? Déjale un mando a una máquina y te dará la paliza de tu vida ¿Eres un maestro del ajedrez? Dale un par de horas para aprender a jugar y te gana hasta a las damas. ¿Se te da bien escribir? Tal vez aquí le falte más recorrido, pero, por si acaso, no subestimes el potencial del aprendizaje automático....

Suscríbete para seguir leyendo

Lee sin límites

Seguir leyendo Seguir leyendo

Ya soy suscriptor

Hace algún tiempo que los algoritmos comenzaron a interesarse por la literatura. Algunos se estrenan en el periodismo redactando historias locales. Otros encuentran en Wikipedia una fuente de inspiración para escribir novelas. Los más ambiciosos optan por dedicarse de lleno a componer relatos de terror.

La automatización de estas labores trae consigo innumerables ventajas y algún que otro inconveniente. El perfeccionamiento de este trabajo puede hacer que una persona sea incapaz de distinguir si un texto está escrito por un humano o una máquina, lo que, entre otras cosas, podría ayudar a la proliferación de noticias falsas. Paradójicamente, la inteligencia artificial puede convertirse en la herramienta perfecta para detectar si un texto ha sido escrito por un algoritmo.

¿Es esa la palabra que espero que escribas?

La Universidad de Harvard y el MIT-IBM Watson AI Lab —un laboratorio académico e industrial que trabaja en investigación relacionada con inteligencia artificial— han desarrollado una herramienta que ayuda a detectar si un texto ha sido generado de forma automática. La plataforma se llama Giant Language Model Test Room (GLTR) y no se preocupa por el significado de las oraciones. En vez de eso, se dedica a buscar patrones estadísticos en el texto: analiza cada palabra y señala si estas son demasiado predecibles para haber sido escritas por un ser humano.

La plataforma utiliza un sistema de colores para que los usuarios puedan comprobar la probabilidad de que el texto esté generado por ordenador de una forma eminentemente visual. Las palabras que el algoritmo considera más predecibles aparecen subrayadas en verde, si son más imprevisibles, se les asigna el amarillo o el rojo y, para aquellas que el sistema considera más originales, utiliza el morado.

El sistema puesto a prueba. A la izquierda, un texto generado por ordenador. A la derecha, un texto académico escrito por un ser humano.

Pero detectar la probabilidad de que aparezca una palabra u otra no era una tarea fácil. En este punto, entra en juego OpenAI, una compañía de investigación de inteligencia artificial que había desarrollado un algoritmo capaz de construir fragmentos muy realistas a partir de un modelo de aprendizaje automático que recogía los patrones estadísticos de ciertas palabras. El equipo de GLTR aprovechó una versión del código que la plataforma había lanzado públicamente para abordar esta cuestión.

“El sistema de OpenAI predice la siguiente palabra a partir de las palabras anteriores dentro de un texto y así puede generar fragmentos automáticos de mucha calidad”, explica Hendrik Strobelt, científico de IBM Research. “Lo que nosotros hicimos fue darle la vuelta a este razonamiento. Preguntar al sistema: ¿qué probabilidad hay de que aparezca la palabra ‘perro’ en esta posición en el texto? Y reflejamos con un sistema de colores si es la quinta palabra más probable o la decimotercera”.

Más información

Un algoritmo para descifrar la piedra de Rosetta

El raro perfil del filólogo bilingüe, experto en lenguaje natural y digital

Para poner a prueba este modelo, los creadores del sistema pidieron a un grupo de alumnos de Harvard que probaran a distinguir entre varios textos generados por ordenador y otros escritos por humanos. Los estudiantes fueron capaces de de acertar con éxito en el 54% de los casos. Después les propusieron repetir el ejercicio con nuevos textos con la ayuda de su herramienta. En esta segunda ronda, lo detectaron en el 72% de los casos.

La plataforma es de código abierto y se puede utilizar de forma sencilla a través de este enlace. El objetivo final que persiguen los investigadores que han trabajado en su desarrollo es llegar a crear modelos híbridos en los que la colaboración entre humanos y sistemas de inteligencia artificial puedan conseguir una mayor eficiencia en la detección de patrones que permitan identificar estos textos.

Strobelt considera que su herramienta puede ser de utilidad para combatir las noticias falsas, que describe como una amenaza potencial. “En la actualidad, para generar fake news es necesario contar con un equipo de personas, es caro y lleva tiempo”, apunta el investigador alemán. “Las herramientas de inteligencia artificial son cada vez mejores imitando los textos escritos por seres humanos. Con muy poco dinero, es posible producir más y más rápido”.

Suscríbete para seguir leyendo

Archivado En