David Ríos Insua: “No se pueden desplegar tan a la ligera los sistemas de IA”
Experto en aprendizaje automático adversario, es miembro de la Real Academia de Ciencias Exactas, Físicas y Naturales y profesor de investigación del Instituto de Ciencias Matemáticas (ICMAT).
Cada vez dejamos más decisiones en sus manos. Una tendencia quizás irreversible, aunque no está programada a prueba de fallos. Los algoritmos tienen sesgos, se equivocan, incluso alucinan, un término que humaniza la IA cuando da una respuesta incorrecta. Pero existen otro tipo de errores que se producen por el ataque de alguien con agenda propia, que busca hacer daño deliberado.
Investigadores del Center for AI Safety, de la Universidad de Stanford, obligaron a ChatGPT a entregarles un plan de cómo manipular psicológicamente a una persona, algo que por supuesto el sistema tiene prohibido. Pero los riesgos van más allá. Los atacantes buscan fórmulas para burlar los filtros de moderación de contenido en redes sociales o difundir desinformación, podrían lograr que un coche autónomo se salte los límites de velocidad. O algo peor. Engatusan a las máquinas.
¿Usted le pone zancadillas a la IA?
En realidad yo estoy en el equipo de los buenos. Pero para enfrentarnos al problema tenemos que aprender posibles ataques y ponernos en las botas del malo. Lo que intentamos es hacer sistemas más robustos que aguanten los ataques. Estos sistemas se utilizan en defensa, sistemas bélicos o coches autónomos. Y es concebible engañarlos para un cierto propósito, como defraudar a una aseguradora, que un misil vaya en otra dirección o que un coche en vez de frenar, acelere.
Entonces, ¿se les puede burlar?
No es tan fácil, pero la gente que lo intenta es muy lista, muy capaz y tiene unos intereses detrás.
¿Económicos?
Claro, un ejemplo muy sencillo sería un filtro anti-spam. Cuando la persona que envía el spam se da cuenta de que estás protegido, altera ligeramente el mensaje para saltarse esa barrera. Su propósito aquí sería seguir haciendo negocio, que te siga llegando el mensaje para que hagas clic.
“Aprendizaje automático adversario” no es un término intuitivo. ¿De dónde viene?
Del inglés Adversarial Machine Learning. Digamos que las tareas de aprendizaje automático de una máquina vienen dificultadas por alguien que quiere que esa tarea no salga bien.
¿Por qué las IA deben estar a salvo?
Porque cada vez desplegamos más sistemas para que tomen decisiones de forma autónoma. Y en algunos campos son decisiones importantes, como cuando se ponen en juego vidas humanas o hay riesgo de impacto ambiental. No se pueden desplegar tan a la ligera. Hay que plantearse una serie de problemas posibles.
¿Qué papel jugará aquí la legislación que ha acordado la Unión Europea?
Es bastante relevante. Establece unos niveles de riesgo y marca unas pautas sobre las características deseables de los sistemas, como que sean seguros y robustos frente a ataques. La normativa va a hacer que la gente se preocupe más por hacerlos más seguros.
Lo que desarrolla EE UU lo usa Europa...
Sí, pero si quieren operar en la UE tendrán que hacerlo con esas premisas. La idea es que Europa tenga herramientas para que esto sea así. La ley es tecnológicamente neutra, pero sí habla de un sandbox, un entorno seguro para probar los algoritmos, previo a su despliegue operativo.
¿Qué puede pasar si un modelo de lenguaje, como el motor de ChatGPT, es atacado?
Que le hagan preguntas y dé respuestas inadecuadas que promuevan violencia o desinformación.
¿Y cómo se le retuerce para que lo haga?
Se han hecho demostraciones de ataques a modelos de lenguaje. Uno de esos métodos aprovecha un modelo que es público en cierta medida, en cuanto a algoritmo y parámetros. Lo han desviado para que diga cosas que no debía decir. Y estas vulnerabilidades se podrían transferir a sistemas más opacos, como ChatGPT y similares.
La seguridad de la IA dependerá de la regulación. Lo que sí debemos esperar es que pongan límites más exigentes que a los humanos, que las máquinas se equivoquen menos que nosotros
¿Son comunes estas vulnerabilidades?
Diría que son algo general. Nosotros hemos hecho experimentos en varios dominios, con visión, con texto, con recomendadores [estudian las preferencias de los usuarios para sugerir, por ejemplo, contenidos], y creo que es general a todos los algoritmos de aprendizaje automático. Podríamos tener un vehículo autónomo que debería frenar y no lo hace, o un filtro de contenido que debería detener una posible noticia falsa, pero la deja pasar.
¿Cómo se ataca un coche autónomo?
Se han hecho experimentos colocando una pequeña pegatina en una señal de stop. El sistema, que debería reconocer el stop, detecta una señal de ceda el paso. En lugar de parar, el vehículo sigue si no ve ningún coche. Algo parecido ocurre con una señal de prohibido circular a más de 30, con esa pegatina el coche reconoce que puedes ir a 80, así que, en lugar de ir despacito, va mucho más rápido.
Que una pegatina arme todo ese jaleo...
Engaña a la visión artificial. El sistema recibe una imagen, que en realidad es una matriz de números. Esa pegatina, colocada de una forma concreta para aprovechar cierta vulnerabilidad, modifica la matriz y confunde al sistema. La IA debería reconocer un tres en la señal, pero decide que, con alta probabilidad, es un ocho.
¿La solución?
Todavía no hay una lo suficientemente buena para protegernos. Los investigadores que han descubierto estas vulnerabilidades hacen llamadas de atención para que mucha gente se dedique a trabajar en este campo y hagan más seguros los sistemas. Todos los medios que tenemos, ya sean texto, imágenes o voz, se han hackeado.
Si transcribo esta entrevista con un sistema IA, más allá de presentar algunos fallos, ¿qué consecuencias tendría un hackeo?
El sistema cometería errores, pero si alguien te hackea por alguna razón, podría ponerme a mí en ridículo, o a ti. Aunque espero que antes de publicar, lo revises [risas]. Es algo rebuscado, pero alguien podría haber entrenado tu transcriptor de voz a texto para que cometa fallos.
¿Cuáles son los principales riesgos de seguridad para los sistemas en uso?
Aún no disponemos de algoritmos suficientemente robustos, que se puedan enfrentar con garantías a posibles ataques. Hay riesgos asociados como sesgos, falta de equidad, que también son importantes. Pero, en seguridad, ese es el problema.
¿Hay casos sonados de esos ataques?
Que se sepa, no, pero sí ejemplos potenciales. Otros ejemplos han sido las imágenes médicas. Al analizar una imagen, el radiólogo artificial debería decir que no hay cáncer, pero al cambiarla ligeramente te dice que lo hay con alta probabilidad.
¿Nos explica el asalto a un modelo de IA?
Tú entrenas el algoritmo con un tipo de datos, pero cuando lo pones en operación, va a trabajar con otro entorno. El atacante puede alterar cómo se ha entrenado. O bien, si los datos que recibe el modelo vienen de una fuente, puede alterar esa fuente.
A esto se le llama envenenamiento...
Sí, un caso sería el spam. Envenenamiento es añadir un par de palabras buenas y ya tienes más probabilidades de engañar al filtro. O se cambian caracteres. Por ejemplo, en lugar de una “a” se pone una “@”; nosotros la leemos igual, pero los algoritmos no son capaces de captarla como una “a”.
¿Cómo se puede mitigar el riesgo?
Se puede robustecer el modelo durante el entrenamiento con datos limpios, pero también con datos atacados. Y otro modo es intentar operar de forma robusta una vez que ya está en operación. En este caso, cuando te llega el dato, antes de que ese dato dispare una decisión, lo podemos procesar para ver si es dañino y descartarlo. Habrá entornos en los que el sistema procese el dato por su cuenta y otros en los que avise al humano para pedirle opinión.
Si la seguridad total es imposible, ¿dónde ponemos el límite al lanzar una IA masiva?
Dependerá de la regulación. Para un coche autónomo, las autoridades tendrán que decir que como mucho puede tener un accidente cada 500.000 kilómetros, y habrá que hacer una serie de pruebas. O que una herramienta de diagnóstico médico se equivoque solo una vez cada 50.000. Alguien tendrá que establecer esa regulación. Lo que sí debemos esperar es que pongan límites más exigentes que a los humanos, que las máquinas se equivoquen menos que nosotros.