Un análisis de 1,3 millones de tuits sobre Casado y Ayuso da una ligera ventaja a la presidenta madrileña
Dos investigadores españoles han creado un modelo capaz de analizar el sentimiento en Twitter, que se ha convertido en uno de los más usados del mundo
Los mensajes en Twitter sobre política en España suelen ser negativos. Pero un análisis de la conversación mediante 1,3 millones de tuits desde que estalló la crisis en el Partido Popular hasta este lunes demuestra que aunque nadie se salva, Isabel Díaz Ayuso recibe un sentimiento ligeramente más positivo. Hasta el viernes al mediodía, sin embargo, el 90% de los mensajes fueron negativos, tanto los que se referían a Ayuso como a Pablo Casado. Desde la publicación, ese día, de un duro comunicado contra la dirección nacional de su partido, la presidenta madrileña mejora ligera pero significativa...
Los mensajes en Twitter sobre política en España suelen ser negativos. Pero un análisis de la conversación mediante 1,3 millones de tuits desde que estalló la crisis en el Partido Popular hasta este lunes demuestra que aunque nadie se salva, Isabel Díaz Ayuso recibe un sentimiento ligeramente más positivo. Hasta el viernes al mediodía, sin embargo, el 90% de los mensajes fueron negativos, tanto los que se referían a Ayuso como a Pablo Casado. Desde la publicación, ese día, de un duro comunicado contra la dirección nacional de su partido, la presidenta madrileña mejora ligera pero significativamente su posición.
Los modelos de inteligencia artificial que analizan el lenguaje y son capaces de entenderlo o generarlo han mejorado mucho en los últimos años. El análisis sobre los tuits de la crisis del PP ha sido realizado para EL PAÍS por un grupo de investigadores de la Universidad de Cardiff (Gales). Los españoles José Camacho Collados y Luis Espinosa Anke, investigadores de esa universidad británica, han creado un modelo que analiza con precisión si el sentimiento de un tuit es positivo, negativo o neutral. Su herramienta, llamada TweetEval, se ha convertido en un éxito sin precedentes en los últimos meses: de tener unos miles de descargas en enero de 2021 se ha disparado hasta los 15 millones en apenas un año, y compite en la liga de modelos generados por gigantes como Google, Meta u OpenAI. La clasificación puede seguirse en la compañía que se ha convertido en el centro de estos modelos de código abierto, HuggingFace. Junto a Camacho y Espinosa son autores del modelo dos empleados del laboratorio de investigación de Snapchat: Francesco Barbieri y Leonardo Neves.
“No sabemos el porqué de esta explosión”, explica Camacho sobre el éxito de su programa. “Quizá son trabajadores de empresas que quieren analizar cómo va su marca o políticos en Twitter”, añade. En el fondo, es una nueva manera de medir estados de opinión, como una encuesta, aunque tiene sus complejidades. “Es una forma barata de escanear Twitter sobre tu marca”, resume Espinosa. Sin apenas recursos, y con muestras relativamente pequeñas, partidos políticos, clubes deportivos o productores de cine pueden hacerse una idea de cómo respira esta red social ante cualquier novedad o tendencia.
En Hugging Face tampoco saben el porqué de este éxito repentino, más allá de dar algo de contexto a esos millones: “El número de descargas puede variar mucho. No significa que CardiffNLP [otro nombre para TweetEval] sea más usado que otros modelos necesariamente”, dice Omar Sanseviero, ingeniero de Hugging Face. “Podría significar que unas pocas compañías lo están usando de manera muy intensa. No podemos saberlo realmente. De todos modos, es genial e impresionante ver un uso tan grande de modelos que no vienen de grandes laboratorios de investigación”, añade. Es decir, cada descarga del modelo de Cardiff no implica un uso estrictamente nuevo, sino que la misma organización puede hacer varias descargas del modelo para mirar casos similares. Y cada uno de esos usos cuenta como una descarga.
La sencillez de utilizar modelos así tiene sus peligros: hay que entender qué se hace y para qué. En casos puntuales la muestra puede estar sesgada, quizá hay conversación artificial provocada por campañas específicas o incluso pueden colarse tuits de otros temas si las palabras clave son confusas. A pesar de los reparos, como en el caso del PP, seguir una tendencia fiable es relativamente sencillo si no se hacen grandes extrapolaciones.
El autor del análisis sobre el PP, Dimosthenis Antypas, veía por ejemplo hasta el viernes una foto clara: “Los resultados indicaban que el sentimiento público, al menos en Twitter, iba en una sola dirección, con más del 90% de los mensajes que mencionan a Ayuso o Casado clasificados como negativos. No había una diferencia significativa entre los dos políticos”, explica. Pero entonces algo cambió y en Twitter saltó algo el mismo viernes que se iría reflejando en los medios, la manifestación del domingo y las sensaciones al principio de esta semana: Ayuso, por algún motivo, mejoró. “Sin saber en absoluto lo que sucedió, asumo que algo ocurrió después del viernes a mediodía que hizo que la opinión pública sobre Ayuso mejorara. Se disparó alrededor del viernes por la noche”, precisa Antypas, que no sigue de cerca la política española.
El cambio no es extraordinario, pero es significativo. Los comentarios positivos sobre Pablo Casado no varían; los de Ayuso, sí. “Isabel, muchos ánimos y todo mi apoyo!! Eres muy grande y te invito a que fiches por Vox”, “presidenta, contigo siempre. Ánimo y gracias”. El entusiasmo que despierta su figura es otro de los motivos que puede levantar su sentimiento: tiene más fans que Casado.
La política en España (y en otros países también) suele ser negativa. En un artículo científico anterior de estos investigadores, descubrieron que los tuits más críticos de diputados en España, el Reino Unido y Grecia tienden a recibir muchos más retuits que los positivos. También detectaron que los políticos que están en el Gobierno escriben más mensajes positivos que la oposición: en España el 84% de los textos que publica Pedro Sánchez son positivos, los de Casado son negativos en un 63%. Es algo lógico, uno ocupa la presidencia y el otro está en la oposición, y así lo confirman los datos.
Fuera de la política, también domina el enfado, pero con menor intensidad: “Si tomas un tuit aleatorio en España, la distribución es 46% negativo, 16% neutro y 39% positivo; está más o menos equilibrado”, dice Camacho.
Un sector en auge
Este campo del procesamiento de lenguaje natural está viviendo un verdadero bum. El artículo científico que marca hoy casi todas las investigaciones es uno de Google de finales de 2018: “Cambió la estructura de base y ya instauró tener un mismo modelo que aprende de colecciones de textos muy grandes”, dice Camacho, lo que supone cambios enormes en pocos años: “Nuestro mundo cambia muy rápido, ahora el 90% de artículos académicos usa esto, que es algo que en 2018 no existía”, añade.
La velocidad a la que cambia la capacidad de las máquinas para entender el lenguaje y producirlo es enorme. Pero queda mucho por hacer. Ahora un modelo que funciona bien para entender Twitter, no es capaz de escribir un artículo de periódico y mucho menos una sentencia judicial. Cada campo se nutre de bases de datos propias. Pero eso irá cambiando también con los años. “Hay un límite de lo que se puede hacer con reconocimiento de patrones y con millones y millones de datos. Solo imitan lo que han visto pero no razonan. Es una manera muy diferente de aprender el lenguaje. El desafío mayor es que estos modelos entiendan el lenguaje. Por ejemplo que digas que tu nieto vive en Granada y el modelo sepa que allí está la Alhambra. Ahora eso no ocurre”, dice Camacho.
El éxito de su invento ha llevado a estos investigadores a querer popularizarlo. En unas semanas colgarán una página donde se podrán hacer consultas con pequeñas muestras sobre casos como el de Ayuso y Casado. Hay ya un montón de artículos científicos hechos en base a su modelo: “El sentimiento en general tiene una pata en muchas otras tareas con valor”, dice Espinosa. ”Se puede usar la información de sentimiento para mejorar por ejemplo un modelo de prevención de suicidio. También hemos visto desinformación sobre covid o polarización”, añade. Hay quien lo ha usado, por ejemplo, para ver si las canciones de éxito son cada vez más negativas. Resulta que sí.
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.