Los bulos siguen unos patrones concretos… y los algoritmos ya los rastrean

La inteligencia artificial mejora su precisión a la hora de detectar noticias falsas, aunque la sofisticación de este contenido dificulta su labor

Manifestante en California en mayo pasado.SOPA Images (SOPA Images/LightRocket via Gett)

Lo falso y lo veraz siguen unos patrones determinados. Algo así como un código unívoco. El problema es que son tan complejos, en particular en las fake news, que hasta puede confundirse lo falso con lo real. Cuesta cada vez más discernir entre ambos. Según un informe de la consultora Gartner, en 2022 consumiremos más bulos que información verdadera. Sin embargo, algunos algoritmos ya han conseguido rastrear esta especie de fórmula mágica y determinar ciertas cara...

Suscríbete para seguir leyendo

Lee sin límites

Lo falso y lo veraz siguen unos patrones determinados. Algo así como un código unívoco. El problema es que son tan complejos, en particular en las fake news, que hasta puede confundirse lo falso con lo real. Cuesta cada vez más discernir entre ambos. Según un informe de la consultora Gartner, en 2022 consumiremos más bulos que información verdadera. Sin embargo, algunos algoritmos ya han conseguido rastrear esta especie de fórmula mágica y determinar ciertas características. Es el caso de una investigación realizada por la Universidad de Granada y el Imperial College de Londres, que ha conseguido que la inteligencia artificial entienda las emociones que desprende el lenguaje o el impacto sociológico que tiene un tuit.

Juan Gómez, integrante de la investigación y profesor de Ciencias de la Computación en la Universidad de Granada, reconoce que la complejidad de los mensajes dificulta hallar estas estructuras de veracidad y falsedad. “Hay recursos visuales simples y llamativos, como los emoticonos y las mayúsculas, que son pistas relevantes para identificar las fake news; pero su ingeniería también evoluciona. Es decir, los datos de entrenamiento que usamos en un determinado contexto ahora no pueden aplicarse”. Al igual que las capacidades de la inteligencia artificial evolucionan, la maquinaria de los bulos lo hace incluso más rápidamente.

Ante esta situación, Claire Wardle, directora de investigación de FirstDraft, huye de un único concepto de desinformación. En su opinión, por lo menos nos encontramos delante de siete escenarios diferentes, que van desde la noticia inventada o manipulada hasta la sátira —no tiene intención de dañar, pero cuenta con un potencial elevado de engaño—. “Si vamos a atajar realmente el problema en el que nos encontramos, debemos comprender su gravedad y debemos entender contra lo que estamos luchando”, asegura. Esta es la batalla interna que libran el aprendizaje automático y los programadores que los entrenan. Aportar información y variables más profundas para que lleguen a ese código universal de la mentira.

Metadatos, contenido, organización temática, contexto y coherencia son algunas de las señales que Ricardo Baeza-Yates, director de Ciencia de Datos en Northeastern University y catedrático de Informática de la Universitat Pompeu Fabra, ha incorporado a la algorítmica para prevenir la desinformación. Intenta que el machine learning aprenda si un texto respeta la congruencia semántica. Si existen los hechos mencionados. O si se da una relación lógica en su conjunto. No basta solo con rastrear bots y la autoría. Otra cuestión es su precisión. “Podemos permitirnos entre un 60% y 80%. Creo que es un porcentaje razonable. Si le preguntas a 20 personas diferentes qué noticias son más creíbles, ni entre ellos habrá unanimidad”, zanja.

Los investigadores insisten en la inconveniencia de depositar únicamente en la tecnología la responsabilidad de la verificación. Su ventaja principal es que cuentan con una mayor capacidad de detección. Baeza-Yates pone un ejemplo elemental: el código html. “Es una señal valiosa para identificar esas estructuras falsas y que no está precisamente al alcance de todas las personas”. Incluso el exceso de coherencia representa un marcador determinante; y estos algoritmos en seguida dan la voz de alarma. Como explica, el ruido y la incoherencia son características propias del ser humano.

La era del aprendizaje profundo

Un estudio de MIT Initiative on the Digital Economy, que había analizado unos 126.000 hilos de Twitter, determinó que la verdad tarda aproximadamente seis veces más que la mentira en alcanzar a 1.500 personas. Se difunde más lejos y más rápidamente. Para mejorar la capacidad de rastreo de las fake news de los algoritmos, al menos así lo interpreta Gómez, ha llegado el momento de que el aprendizaje profundo brille. “Puede tener la llave de algunas estructuras más sólidas. Nosotros nos hemos dado cuenta de que las técnicas de deep learning, como las que procesan el lenguaje natural, mejoran las estadísticas”.

Este escenario puede estar más cerca de lo previsto. Hace no tanto, como unos 10 años, el spam colapsaba las bandejas de entrada y ahora está más controlado gracias al perfeccionamiento de los filtros, que han evolucionado de la mano del deep learning. El problema, pese a que la inteligencia artificial mejore su efectividad antibulos, es que los creadores de esta información seguirán refinando la técnica. En palabras de Baeza-Yates, va a ser como los virus informáticos, que año tras año aparece uno nuevo y desconocemos cómo tratarlo. “Se trata de una batalla eterna entre malos y buenos. Como con la evasión fiscal. Siempre hay un subterfugio por el que la desinformación terminará colándose”.

El margen de mejora de los algoritmos es muy amplio, aun con todos los avances logrados recientemente. Un margen algo estrecho si atendemos a las consideraciones de Baeza-Yates. Su nivel de acierto depende de los datos, con lo que alguien ha de ser mejor que la máquina para enseñarle. “Si somos incapaces de encontrar artículos más complejos, no podremos entrenar al algoritmo para que detecte bulos más y más sofisticados”, concluye.

La propia evolución de las fake news también reduce el futuro que afronta el machine learning. Gómez destaca que la idea inicial con la que se creaban partía de cambiar la opinión sobre un hecho. Una vez que costaba, el salto ha sido hacia mantener en alerta a una comunidad. Fidelizar a los simpatizantes. “Muchos textos son de consumo propio. ¿Esto cómo lo controlamos? ¿Cómo logra aprenderlo la inteligencia artificial?”, se pregunta. Nadie pretende que la tecnología sea la única responsable de diferenciar entre falso y verídico, pero sí una herramienta que ayude a decidir. Poco a poco se deja engañar con menos frecuencia, por mucho que se lo pongamos difícil.


Puedes seguir a EL PAÍS TECNOLOGÍA RETINA en Facebook, Twitter, Instagram o suscribirte aquí a nuestra Newsletter.

Archivado En