_
_
_
_

La visión artificial está tuerta

Las técnicas de análisis y procesamiento de vídeo han vivido una revolución en los últimos cinco años, pero la falta de bases de datos frena el avance en este campo

Bette Davis en 'El aniversario'
Bette Davis en 'El aniversario'Getty Images

Una mano derecha recoge un plato de la mesa y lo lleva a la encimera. Entonces aparece la izquierda, que ayuda a despegar dos trozos de pizza del papel de horno y entre las dos los dejan en el plato. Una vez allí, los cortan y los pasan a un tupperware. Durante los siguientes nueve minutos el par de manos continúa desempeñando una práctica milenaria: recoger la cocina.

Hay mucho vídeo disponible, pero no hay etiquetas que describan esos contenidos Marcos Nieto, Vicomtech

"Cuando la gente trabaja en su cocina, hace multi-tasking de manera natural: lava platos mientras cocina, añade ingredientes mientras revuelve... Estas interacciones con objetivos paralelos nunca habían sido capturadas en datasets egocéntricos", explica Dima Damen, profesora asociada de visión artificial de la Universidad de Bristol. Estas son algunas de las peculiaridades que hacen único el proyecto que lidera y que ha dado como resultado Epic Kitchens, el mayor dataset de vídeo egocéntrico -grabado en primera persona, con una cámara en la frente- sin guion y con anotaciones que se ha recopilado jamás. Cuatro ciudades, 32 cocinas y 55 horas de grabación.

Podría parecer poco, pero es cinco veces la saga de El señor de los anillos y viene a llenar la milésima parte de un vacío que sufre toda la comunidad científica dedicada al análisis y procesamiento de vídeo. "Hay mucho vídeo disponible -datos-, pero no hay etiquetas -metadatos- que describan esos contenidos. Si no hay metadatos, no tenemos ninguna forma de decirle a la máquina qué está ocurriendo", dice Marcos Nieto, investigador principal en Vicomtech.

Los sistemas de reconocimiento de imagen, que nunca habían sido tan inteligentes, amplían cada día sus capacidades de detección e identificación de objetos. "Lo que todavía no está resuelto, y queda mucho para lograrlo, son los procesamientos más complejos, como la identificación de acciones", señala Nieto. Así, en una escena de Epic Kitchens, sería más sencillo obtener una lista de entidades, como fregona, clara, yema, servilletas, individuo enfadado... que la descripción de lo que está ocurriendo: un huevo kamikaze se ha tirado de la encimera al suelo. "Ahí los seres humanos todavía somos mucho mejores que las máquinas. Nosotros tenemos 20, 30, 40 años de entrenamiento, mientras que a las máquinas las podemos entrenar con una cantidad de imágenes muy, muy inferior".

Más información
Sabotaje al ‘machine learning’: ¿chihuahua o ‘muffin’?
Cajas negras y sonámbulos: ¿sabemos lo que hay dentro de la tecnología?

En Vicomtech necesitan estas fuentes de vídeos descritos para mejorar el reconocimiento de situaciones en tiempo real en sistemas de transporte. En Epic Kitchens quieren saberlo todo sobre nuestra manera de interactuar con el entorno. Convergen en la escasez de filmografía que enturbia la mirada de sus sistemas de visión artificial, pero difieren en las soluciones propuestas.

El equipo de Nieto ha trabajado en desarrollar herramientas de deep learning que automaticen la interpretación de grandes cantidades de vídeo. "Mientras se graba, se ejecutan algoritmos que van generando anotaciones de forma automática", precisa. Posteriormente, un equipo de anotadores revisa, valida y, en el peor de los casos, corrige las asociaciones propuestas. Así, se rompe el círculo vicioso donde las máquinas no aprenden porque no tienen libros y los libros no existen porque no hay máquinas capaces de crearlos; y se comienza a construir un círculo virtuoso donde cada nuevo análisis mejora aprendiendo de los errores detectados durante el anterior. "Ahora estamos centrados en escenarios de automoción, pero este mismo concepto podría aplicarse prácticamente a cualquier cosa", añade.

Epic Kitchens parte del producto completo: sus 55 horas de vídeo ya están inequívocamente procesadas y han resultado en la identificación de nada menos que 39.594 segmentos de acción y 454.158 objetos. "En este momento, el mayor reto en el análisis de vídeo egocéntrico es que los datasets disponibles limitan la evaluación de los métodos actuales", explica Damen. Su esperanza es que estos contenidos, que ya están colgados en la web al alcance de cualquier ingeniero con acceso a internet, sirvan como base para comparar problemas y soluciones.

"La visión egocéntrica ofrece puntos de vista únicos de los objetos mientras se están usando", asegura Damen. Además, las actividades en la cocina resultan más predecibles y orientadas a objetivos concretos que el curso de acción de quien se dedica a haraganear en el salón. "Creemos que una comprensión automatizada del vídeo egocéntrico pondrá los cimientos para una interacción más cautivadora entre humanos y ordenadores", promete la líder del proyecto.

De hecho, el potencial del vídeo egocéntrico ya ha cruzado la frontera del reino animal. Investigadores de la Universidad de Washington han compilado su propio dataset de vídeo egocéntrico desde la perspectiva de un perro. Los modelos derivados del análisis de estas nueve horas de vídeo son "prometedores", según os autores del estudio. "Pueden predecir cómo se mueve el perro en distintos escenarios y cómo decidirá moverse de un estado a otro".

GDPR, ¿otro tupido velo para la visión artificial?

La inminente nueva regulación europea en materia de protección de datos podría complicar aún más la recopilación de fuentes. "Exige que se pida permiso explícito a cualquier persona antes de grabar sus datos. Hay una incompatibilidad directa entre el desarrollo de la tecnología y el de la regulación", razona Nieto.

Para sortear el problema, utiliza un sistema de tratamiento de imagen que encripta cualquier información privada antes de que la imagen se guarde. "Solo en caso de que algún cuerpo de seguridad del Estado solicitase acceso, se le proporcionaría la clave para observar la imagen original", explica.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_