Las matemáticas que producen y detectan las ‘fake news’
Los modelos de generación automática de texto emplean técnicas de big data para extraer los patrones más típicos del lenguaje natural y obtener (o identificar) resultados de apariencia humana
Hace unos meses, la plataforma Avaaz hacía público un informe que alertaba de la presencia masiva de noticias falsas (fake news) sin detectar en redes sociales, en relación con la covid. Estos contenidos, con la ayuda de los medios que los viralizan, están provocando otra pandemia, que la OMS ha denominado “infodemia”, capaz de provocar todo tipo de malentendidos y engaños con respecto al virus. Además, parte de estas noticias, pese a su apariencia humana, son creadas de forma masiva mediante modelos matemáticos de generación de texto basados en redes neuronales artificiales. Sin embargo, las mismas ideas y modelos matemáticos también pueden emplearse en sentido contrario, y son clave en proyectos de detección de contenido falso.
El problema de la generación automática de texto –es decir, conseguir que los ordenadores hablen o escriban de forma coherente en lenguajes naturales, como el inglés o el castellano– está ligado a los orígenes de la historia de la Informática, pues permite que la máquina y el usuario humano se comuniquen fácilmente. Los primeros sistemas –como el chatbot ELIZA (creado en 1964) que emulaba a una psicóloga, o el software Racter (1984), que produjo una de las primeras novelas escritas (casi) sin intervención humana– generaban las frases aplicando un conjunto de reglas, denominadas gramáticas formales.
Los resultados, pese a los notables avances en este campo durante décadas, eran poco convincentes. Para alcanzarlos, hizo falta un cambio de paradigma del procesamiento del lenguaje natural, que vino con el cambio de siglo y el tratamiento de datos masivos. Ahora, estos nuevos modelos, en vez de requerir reglas gramaticales introducidas manualmente, procesan ingentes cantidades de textos con técnicas de big data para aprender por sí mismos los patrones lingüísticos. Así, las máquinas, aunque no entiendan el lenguaje, son capaces de repetir los patrones más típicos que aparecen en los lenguajes naturales.
Según la llamada hipótesis distribucional, popularizada por el lingüista John Rubert Firth en los años 50 del siglo pasado, el significado de una palabra viene dado por las otras palabras que la suelen acompañar (sus vecinas)
Para ello, estos sistemas parten de la llamada hipótesis distribucional, popularizada por el lingüista John Rubert Firth en los años 50 del siglo pasado, según la cual el significado de una palabra viene dado por las otras palabras que la suelen acompañar (sus vecinas). Imaginemos que, por ejemplo, queremos que una máquina extraiga el significado de la palabra “perro”, estudiando la presencia en internet de tres frases: “los perros tienen hocico”; “los perros ladran” y “los perros cosen bufandas”. Para ello, podría considerar todo el texto disponible de Internet (en castellano) y ver cuáles de estas frases aparecen con más frecuencia. Seguramente, las dos primeras frases son mucho más comunes que la tercera, es decir, la palabra “perro” suele acompañarse de “hocico” y “ladran”, y no de “cosen” por lo que, aplicando la hipótesis distribucional, un perro será “algo” que tiene hocico y ladra, pero que no cose.
De esta forma funcionan los modelos de lenguaje (LM), y así van aprendiendo los significados de palabras, que no son más que patrones frecuentes de todo el texto natural considerado por la máquina. Los LM son los componentes básicos de los sistemas actuales de generación de texto, que generan frases prediciendo la siguiente palabra, dada una serie de palabras anteriores, empleando ideas de probabilidad y estadística. En el ejemplo anterior, el modelo pronosticará que después de “el perro”, la probabilidad de que aparezca la palabra “ladra”, es mayor de que aparezca la palabra “cose”.
Matemáticamente, estos sistemas representan cada palabra como un vector, el llamado word embedding, de unas 300 dimensiones. El sistema más utilizado para hacerlo es el llamado word2vec. En este espacio geométrico, las palabras similares están cerca (así, “perro” estaría más cerca de “ladrar” que de “coser”) y además se pueden realizar operaciones entre ellas, o generar otras nuevas. Uno de los modelos más potentes hasta la fecha son los llamados GPT-2 y su sucesor GPT-3, de la compañía OpenAI, que generan textos de sorprendente calidad. Tanto que en 2019 tuvieron que retirar su sistema de generación de fake news por miedo a un mal uso. Pese a esta precaución, hoy en día el uso de modelos de este tipo para generación de texto es generalizado y no es sencillo de detectar. Proponemos a los lectores que traten de adivinar, de entre estas reseñas de productos musicales, cuáles son legítimas y han sido generadas por un modelo similar al de OpenAI. Una pista: la mitad son un tipo, y la mitad de otro.
Nuevos modelos como GLTR tratan de identificar incluso los textos automáticos más sofisticados. Emplean herramientas matemáticas que categorizan las palabras mediante colores según lo probables que sean
Frente a ello, nuevos modelos como GLTR tratan de identificar incluso los textos automáticos más sofisticados. Emplean herramientas matemáticas parecidas a las anteriores, que categorizan las palabras mediante colores según lo probables que sean: en verde (si están dentro de las 10 más verosímiles en ese contexto, para ese modelo), en amarillo (top 100), en rojo (top 1000) y el resto en morado. Para evaluar si un texto es falso, el modelo cuenta el número de palabras en cada color: si el número de palabras en verde es muy alto, es muy probable que el texto haya sido generado por una máquina, por el contrario, si en su mayoría son palabras menos probables de color rojo, amarillo o morado, es posible que haya sido redactado por un humano.
Según resultados recientes, el éxito de esta herramienta es considerable: sin ella, los evaluadores discriminan noticias generadas por humanos de las de máquinas con un 54.2% de acierto; con ellas la tasa sube al 72.3%. Sin embargo, seguramente cuando se publique este artículo estos datos ya habrán cambiado: en el contexto de la infodemia, vivimos una carrera acelerada de armamento para diseñar, por un lado, los mejores modelos generativos de texto y, por el otro, los correspondientes detectores.
Victor Gallego y Alberto Redondo son investigadores predoctorales en el ICMAT. Ágata Timón G Longoria es responsable de comunicación y divulgación del ICMAT
Café y Teoremas es una sección dedicada a las matemáticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matemáticas (ICMAT), en la que los investigadores y miembros del centro describen los últimos avances de esta disciplina, comparten puntos de encuentro entre las matemáticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar café en teoremas. El nombre evoca la definición del matemático húngaro Alfred Rényi: “Un matemático es una máquina que transforma café en teoremas”.
Edición y coordinación: Ágata A. Timón García-Longoria (ICMAT)
Puedes seguir a MATERIA en Facebook, Twitter, Instagram o suscribirte aquí a nuestra newsletter