Selecciona Edición
Conéctate
Selecciona Edición
Tamaño letra

Las máquinas comienzan a mirar el mundo con ojos humanos

Un programa de Google DeepMind es capaz de generar un mapa en 3D a partir de una simple foto

Interpretación artística del trabajo publicado en 'Science'.
Interpretación artística del trabajo publicado en 'Science'. DeepMind

Uno de los grandes retos de la inteligencia artificial es el de desenvolverse en un entorno natural, más allá de instrucciones precisas y situaciones controladas. Por ejemplo, los desarrolladores del fascinante AlphaGo, el programa capaz de arrasar a los campeones del milenario juego Go, reconocían que si de pronto sumaran un cuadrante más al tablero estarían perdidos. Del mismo modo, un brazo robótico necesita condiciones muy concretas para poder desarrollar su tarea. No son capaces de observar el entorno, abrir el foco, deducir que se ha producido un cambio sustancial y adaptarse a él.

Al ver una estancia en la que un cubo rojo tapa a una bola verde, el programa imagina que, desde el lado opuesto, es la bola la que no deja ver al cubo

Uno de los principales obstáculos está en la forma de mirar de las máquinas. Los mamíferos, por ejemplo, sabemos identificar múltiples factores de un solo vistazo: objetos superpuestos, incidencia de la luz, distancias... Todo se suma en una única representación mental del espacio que permite interactuar con él. Y es ese objetivo el que mueve a Google DeepMind, la división de inteligencia artificial del gigante tecnológico, que acaba de publicar unos llamativos logros en la revista Science.

DeepMind presenta una serie de pruebas virtuales realizadas con GQN, un programa capaz de formarse una representación abstracta de lo que hay frente a sus ojos a partir de un par de simples vistazos. Así fue como esta empresa venció al Go: en lugar de pensar en cada ficha y cada movimiento, consiguieron que la máquina viera la partida en un plano general, identificando a grandes rasgos cómo y por dónde debían discurrir las jugadas. Hasta ahora, cuando se pretende que una máquina imagine un mapa de lo que está viendo, se la alimenta con toneladas de información: numerosas imágenes y etiquetas que ayuden a identificar objetos y escenarios.

Pero el abordaje de DeepMind es tan elegante como complejo: su máquina solo ve un par de fotos en dos dimensiones de la escena y, a partir de ahí, es capaz de hacerse una composición de lugar en 3D de todo el paisaje. Al ver una estancia en la que un cubo rojo tapa por delante a una bola verde, este programa logra imaginar que, desde el lado opuesto de la sala, es la bola verde la que apenas deja ver al cubo rojo.

Así fue como esta empresa venció al Go: en lugar de pensar en cada ficha y cada movimiento, consiguieron que la máquina viera la partida en un plano general

"En este trabajo, hemos demostrado que una sola arquitectura neuronal puede aprender a percibir, interpretar y representar escenas sintéticas sin ningún etiquetado humano de los contenidos de estas escenas", explican los investigadores de DeepMind en su estudio, liderado por S. M. Ali Eslami. De este modo, es capaz de producir esas imágenes precisas y consistentes de la escena desde nuevos puntos de vista. La máquina aprende por síntesis, "lo que le permite expresar la presencia de texturas, partes, objetos, luces y escenas de manera concisa y en un nivel de abstracción adecuadamente alto", según DeepMind.

Es decir, captura y sintetiza los detalles importantes de su entorno, como las posiciones, aspecto y colores de múltiples objetos, la configuración de los ángulos de unión de un brazo de robot o el diseño de un laberinto. Esta inteligencia artificial absorbe todos los detalles estadísticamente significativos, como patrones habituales, texturas, colores y simetrías comunes para concentrar toda su capacidad en realizar una descripción concisa y abstracta de la escena. Así la máquina es capaz de inferir la composición general, en lugar de perderse en innumerables detalles concretos. Además, GQN aprende este comportamiento por sí mismo y de una forma que le permite aplicarlo en cualquier entorno, sin ninguna especificación previa de las leyes de perspectiva o de iluminación, como sucedería con un humano.

"Nuestro trabajo ilustra un enfoque poderoso para el aprendizaje automático de representaciones de escenas", explica DeepMind, "allanando el camino hacia la comprensión, imaginación, planificación y comportamiento de escenas sin ninguna supervisión". En resumen, percibir e interpretar el mundo en solitario, como cualquiera de nosotros. Hace poco esta misma empresa consiguió recrear de cero el habla humana de una forma tan realista que incluso preocupa a los especialistas.

La máquina aprende este comportamiento por sí misma y de una forma que le permite aplicarla en cualquier entorno

La ventaja añadida de este método es que las representaciones que reflejan de manera sucinta la composición del entorno permiten a las máquinas actuar en esos entornos de forma más sólida y con menos interacciones. Por ejemplo, en lugar de especificar la forma precisa de un brazo robótico, esta inteligencia artificial puede apreciar a grandes rasgos la configuración de sus uniones y los ángulos en los que se mueve, y a partir de esa abstracción es más fácil que se adapte a una realidad inestable y cambiante como la del mundo real.

Aunque precisamente ahí está la mayor pega de este estudio: solo ha sido probado con imágenes y entornos generados por ordenador, por las dificultades de estudiarlo en un entorno totalmente controlado. "Lo más importante es que sus experimentos están restringidos a escenas 3D simples que consisten en unos pocos objetos geométricos básicos", señala en Science el especialista Matthias Zwicker, de la Universidad de Maryland. Y añade: "Por lo tanto, no está claro lo cerca que se encuentra de comprender entornos complejos del mundo real, lo que lo haría útil, por ejemplo, para desarrollar el control práctico de los robots". "No obstante, su técnica introduce una serie de contribuciones cruciales que probablemente lo hagan posible en el futuro", afirma Zwicker.

Más información