Selecciona Edición
Selecciona Edición
Tamaño letra
inteligencia artificial

Máquinas que miran como una persona

Un nuevo algoritmo ayuda a los ordenadores a saber qué partes de una imagen atraerán la atención de una persona

El nuevo algoritmo prevé automáticamente en qué zonas de una imagen (aquí, marcadas en colores cálidos) fijará más la atención una persona. Ampliar foto
El nuevo algoritmo prevé automáticamente en qué zonas de una imagen (aquí, marcadas en colores cálidos) fijará más la atención una persona.

Buscamos instintivamente el centro, visualmente hablando. Cuando una persona no tiene que realizar una tarea específica (conducir, cocinar, leer...), tiende a posar la vista durante un breve instante en el centro de la escena que tiene ante sí, por más que este espacio esté vacío de contenido. Son apenas unos segundos, porque inmediatamente actúa con el mismo patrón visual que cuando tiene un objetivo; con un sesgo: nuestros ojos captan los objetos salientes, aquellos que resaltan al margen de donde estén situados en la escena. El resto, lo que no es útil para nuestra tarea, no es más que ruido visual, "información irrelevante para nuestro cerebro que por tal motivo desechamos".

Lo explica Víctor Leborán, miembro del equipo del Centro de Investigación en Tecnologías de la Información de la Universidad de Santiago de Compostela (CiTIUS) que ha desarrollado un modelo computacional que predice a dónde miramos los humanos. Esto es, qué partes de una escena tienen mayor probabilidad de atraer nuestra atención, incluso cuando hay en ella objetos en movimiento.

Esta capacidad humana de eliminar los datos innecesarios del entorno, llamada atención visual, es, sostiene el investigador, un proceso "derivado de un conjunto de mecanismos evolutivos extremadamente complejos a nivel óptico y neuronal" del que ahora pueden disponer las máquinas. Mirarán como nosotros.

El modelo predice adónde miramos los humanos  y qué partes de una escena tienen mayor probabilidad de atraer nuestra atención

"El robot reproduce cada uno de nuestros pasos neuronales y es capaz de identificar las partes más relevantes de su entorno", detallan los investigadores del CiTIUS para concluir que, de esta forma, se avanza en la resolución de uno de los problemas más frecuentes en el ámbito de la inteligencia artificial: el del exceso de información.

Enseñarle a un robot a reproducir los pasos necesarios para que aprenda a identificar las partes más relevantes de su entorno "requiere de numerosas e intrincadas técnicas", inspiradas muchas en modelos humanos.

El algoritmo desarrollado —el modelo de atención visual AWS (Adaptive Whitening Saliency, o Saliencia mediante Blanqueado Adaptativo)— ha sido calificado por expertos internacionales como uno de los mejores del mundo en la actualidad. Su principal aportación es el desarrollo de la herramienta que no solo permite filtrar el ruido para su implementación en la robótica móvil, sino que detecta cuáles son las partes más significativas de una imagen, las más atractivas para el espectador.

Para la publicidad

"Tiene gran potencial en publicidad", sostiene Leborán. Asegura que hay una empresa norteamericana que utiliza un modelo semejante, aunque menos desarrollado, y ofrece a los clientes, a un precio de unos 3.000 euros anuales, la consulta del mapa de saliencia (prominencia) de sus páginas: las regiones en las que se concentra el impacto visual; ese lugar concreto al que se dirige la vista del usuario.

Cuando hay movimiento, un elemento muy competitivo en la atención, se impone al color por más llamativo que sea

La novedad del modelo desarrollado por el equipo del CiTIUS reside en que permite integrar el movimiento en ese mapa de información destacada, según han confirmado los estudios experimentales realizados con humanos "y hay que tener en cuenta que las páginas web son cada vez más dinámicas", sostienen los investigadores.

El modelo estático, de imágenes fijas (AWS) desarrollado previamente por este equipo fue incluido en una comparativa internacional en 2013 realizada por expertos de la University of Southern California, y obtuvo el primer puesto del ranking. Desde entonces, los investigadores han avanzado en su trabajo creando el modelo dinámico (AWS-D) que puede funcionar sobre vídeos.

"Cuando alguien se sienta ante el ordenador sin más objetivo que navegar, suele mirar hacia el centro unos segundos. Este es el lugar en el que los creadores de contenidos suelen situar la información que quieren transmitir", explica Leborán. Y precisa que, inmediatamente, la vista se dirige a aquellas regiones diferentes de su entorno en alguna característica, como el color, la orientación, el tamaño... No obstante, cuando hay movimiento, un elemento muy competitivo, se impone al color por más llamativo que sea.

"Nuestro modelo es el que mejor predice esos puntos de fijación en comparación con el resto de modelos computacionales del estado del arte", sostiene el equipo científico. Han sometido a un grupo de personas a la libre observación de imágenes y vídeos, y los puntos sobre los que todos ellos han fijado su mirada han coincidido con el mapa de saliencia previsto por la máquina que, utilizando esta tecnología punta, ha aprendido a mirar como miramos.

Más información