Las máquinas aprenden solas a coordinarse contra su enemigo

Google Deepmind logra que sus agentes artificiales ganen en equipo en videojuegos de combate

Javier Salas

31 may 2019 - 12:04CEST

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

Varias recreaciones del juego que se usó para probar a los agentes artificiales.

Cada pocos meses se anuncia un nuevo logro en el campo de la inteligencia artificial. Nuevos hitos que muestran el músculo que está desarrollando este campo de investigación, financiado en buena medida por empresas privadas. Son retos vistosos, como cuando se hacen invencibles en tableros familiares y juegos populares. Pero también son victorias que invitan a reflexiones más profundas al analizar lo que suponen. No es solo que la máquina logre ganar, es que es capaz de "intuir" cómo hacerlo. No es que venza aprendiendo de cero, es que se enseña a sí misma despreciando los conocimientos milenarios de los humanos. Hoy, las máquinas suben otro peldaño que da que pensar: ya son capaces de coordinarse, sin conocerse ni hablar entre ellas, para lograr sus objetivos.

Los investigadores de Google buscan la manera de coordinar distintas inteligencias artificiales para afrontar tareas cada vez más complejas

Pero también han demostrado que pueden hacer equipo con los humanos para hacernos más eficientes, que es la perspectiva buena. Todo esto, en un popular videojuego de combate como campo de pruebas. El hito, en resumen, es este: Google ha desarrollado una inteligencia artificial que se desenvuelve en un videojuego de tiroteos mejor que un humano, al ser capaz de coordinarse con compañeros de equipo hasta desarrollar estrategias que lo lleven a la victoria. En este juego, el Quake III Arena (Q3A), los jugadores tienen que robar la bandera del enemigo y llevarla a su base, mientras protegen la suya propia, disparando un láser contra ellos.

“Lo que hace que estos resultados sean tan emocionantes es que estos agentes perciben su entorno desde la perspectiva de primera persona, tal como lo haría un jugador humano", dice Thore Graepel, científico de DeepMind y la University College de Londres. "Para aprender a jugar tácticamente y colaborar con sus compañeros de equipo, estos agentes deben confiar en la información que reciben de los resultados del juego, sin que nadie les muestre qué hacer", añade Graepel en declaraciones facilitadas por DeepMind, la división de inteligencia artificial del gigante tecnológico. Las máquinas no saben lo que sucede en todo momento ni lo que esperar, como en otros juegos: el mundo es cambiante e imprevisible, por momentos no ven al rival y no saben qué consecuencias tendrán sus decisiones.

DeepMind programó a sus agentes para que se desarrollaran con características particulares: algunos se sentían más motivados a matar al enemigo, otros a capturar banderas

En lugar de entrenar con un único jugador-máquina, los investigadores usaron un equipo de 30 agentes (así los llaman) que tenían que aprender de cero toda la mecánica del juego, únicamente viendo lo mismo que vería un jugador humano y tras conocer si el resultado de la partida es derrota o victoria. De este modo, mediante el aprendizaje por refuerzo, los 30 agentes descubren mediante ensayo y error lo que necesitan para ganar, sin conocer las reglas y sin que nadie les guíe o les muestre ejemplos. Al jugar entre sí, a lo largo de 450.000 partidas en paralelo, cada uno de estos agentes desarrolló su propia forma de jugar. DeepMind los había programado para que generaran sus propias señales de recompensa: algunos se sentían más motivados a matar al enemigo (al dispararles y así devolverlos a su base), otros a capturar banderas, etc., lo que produjo un abanico amplio de jugadores con distintas habilidades y técnicas. Además, el software propicia que los agentes actúen en dos velocidades, por lo que pueden disparar con la adrenalina del enfrentamiento inmediato, pero también planificar movimientos en el largo plazo para una mejor estrategia. DeepMind, que publica ahora los detalles de su logro en la revista Science, los llamó FTW (siglas de for the win, para la victoria en inglés).

El mejor amigo de los humanos

Sin embargo, lo más complicado no era que estos FTW lograran convertirse en ganadores, sino que fueran capaces de coordinarse con otros agentes de su equipo, incluso con humanos, con los que no interactúan más que moviéndose dentro del terreno de juego. "Los humanos actúan y piensan individualmente, pero también son capaces de unirse por medio de equipos, organizaciones y sociedades en impresionantes demostraciones de inteligencia colectiva", indica Max Jaderberg, de DeepMind. A medida que se complican los retos para la inteligencia artificial, en Google son conscientes de que requerirán que las máquinas puedan trabajar en equipo. "Por lo tanto", añade Jaderberg, "es importante comprender mejor estas interacciones y los métodos y técnicas subyacentes que las facilitan".

Intuitivamente, las máquinas aprendieron las estrategias habituales de los humanos. Tras unas cuatro mil partidas, se dieron cuenta de que era una buena idea hacer guardia en la base enemiga. Después de unas cincuenta mil partidas, cuando ya eran capaces de ganar a humanos, los agentes aprendieron a seguir a su compañero de equipo en el asalto, otro comportamiento común en jugadores de carne y hueso. Pero a partir de las doscientas mil partidas comenzaron a desechar esa táctica, reemplazándola por formas más complementarias de colaboración.

Tras un torneo con 40 jugadores de carne y hueso, los jugadores puntuaron a los agentes como más cooperativos que los humanos

Esta evolución se ha dado cada vez que las máquinas se han propuesto hacerse invencibles, como se vio en el Go o el ajedrez. Primero descubren de forma autónoma las jugadas ganadoras depuradas durante cientos de años por los mejores cerebros humanos, para más adelante abandonarlas al inventar mejores tácticas. Como si las máquinas desentrañaran los secretos internos de estos desafíos intelectuales, como si accedieran a unas claves que se le han resistido a miles de jugadores humanos a lo largo de la historia. "Es asombroso ver cómo los agentes aprenden a colaborar y jugar a cotas humanas, desarrollando tácticas y estrategias similares a las de los jugadores humanos, solo a partir de esa pequeña información y un algoritmo capaz de aprender de principio a fin", asegura Jaderberg.

La prueba final llegó cuando DeepMind puso a sus agentes a competir en un torneo junto a 40 humanos, en formaciones aleatorias de jugadores de silicio y de carne. Las FTW arrasan a los gamers, pero hay una posibilidad para los humanos. "Solo como parte de un equipo de agente-humano [mixto] observamos a un humano ganando a un equipo agente-agente", explica DeepMind en su estudio de Science. Eso sí, con tan solo un 5% de probabilidad de ganar. "Este resultado sugiere que los agentes entrenados son capaces de cooperar con compañeros de equipo desconocidos, como los humanos", añade el estudio. Es más, en una encuesta realizada posteriormente, los jugadores puntuaron a los agentes como más cooperativos que a los humanos. No solo se entienden entre ellas: las máquinas pueden coordinarse con un humano para llevarlo a la victoria. Y ese es precisamente el más noble objetivo de los defensores del futuro de la inteligencia artificial: su capacidad de impulsar a los humanos más allá.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Añadir usuario Continuar leyendo aquí

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Sobre la firma

Javier Salas

Javier Salas - twitter

Jefe de sección de Ciencia, Tecnología y Salud y Bienestar. Cofundador de MATERIA, sección de ciencia de EL PAÍS, ejerce como periodista desde 2006. Antes, trabajó en Informativos Telecinco y el diario Público. En 2021 recibió el Premio Ortega y Gasset.