El algoritmo se equivoca. La cara no siempre dice lo que uno siente

Algunos sistemas informáticos pretenden interpretar el estado de ánimo de las personas analizando el aspecto de sus rostros. Un científico español y su equipo han demostrado que eso es imposible

Un hombre retratado mostrando distintas emociones.filistimlyanin (Getty Images/iStockphoto)

Manuel G. Pascual

Madrid - 15 ene 2022 - 03:39CET

Compartir en Whatsapp

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Puede que en su próxima entrevista de trabajo su perfil sea descartado por culpa de una microexpresión facial que una máquina considere inapropiada. O que le detengan mientras hace cola en la aduana de EE UU al considerar un sistema de inteligencia artificial que los gestos de su cara son propios de quien se dispone a atentar. Son dos ejemplos de la aplicación de los llamados sistemas de detección de emociones (affect recognition). Se trata de una controvertida tecnología apoyada en algoritmos de aprendizaje automático que dice ser capaz de reconocer qué siente una persona con solo anal...

Suscríbete 1 año por 144 9,90 €
+ Regalo edición impresa en la App

Y accede al contenido.

Seguir leyendo

Ya soy suscriptor

La tecnología es controvertida porque tiene un serio problema de base: las teorías en las que se apoyan estas aplicaciones están obsoletas. Las emociones no se traducen en expresiones faciales universales que se puedan parametrizar. Eso ha quedado científicamente demostrado gracias a dos grupos de investigadores. Uno está en la Universidad de Yale y el otro lo lidera el profesor de psicología José Miguel Fernández Dols, de la Universidad Autónoma de Madrid. Este último acaba de publicar en la revista científica Emotions, una de las más importantes en esta disciplina, un artículo en el que revisa todas las investigaciones que se han hecho en este campo y que apuntala la conclusión a la que ha llegado en los últimos años: es imposible saber qué experimenta una persona fijándose solo en su cara. El contexto es determinante para interpretar cualquier mueca o guiño. Y esa información contextual y cultural no entra en el análisis de los sistemas de inteligencia artificial.

A pesar de ello, estos sistemas viven una rápida expansión. Empresas como Amazon (Rekognition), Microsoft (Face API), Apple (que compró la startup Emotient) o IBM tienen sus propios desarrollos al respecto. Aunque de origen eminentemente militar, esta tecnología se usa mucho en procesos de reclutamiento de personal. También, en contextos de educación (para dilucidar si los alumnos atienden en clase o se aburren), vigilancia en fronteras y hasta en algunos estadios de fútbol europeos para prevenir peleas.

La selección de personal es una de las áreas en las que más crecen estos sistemas. La startup londinense Human, por ejemplo, analiza vídeos de entrevistas y asegura que puede identificar expresiones de emoción y relacionarlas con rasgos de su carácter para puntuar finalmente al candidato en rasgos como honestidad o pasión por el trabajo, según publicó el Financial Times. Otra compañía, HireVue, que tiene entre sus clientes a Goldman Sachs, Intel o Unilever, ha diseñado un sistema para inferir la idoneidad del candidato con el puesto a partir de sus expresiones faciales comparándolas con las de los trabajadores de mayor rendimiento.

“Los sistemas de detección de emociones se suelen aplicar en procesos de selección de organismos o empresas que tienen que reclutar a bastante gente de forma continuada, principalmente para puestos poco cualificados y remunerados”, ilustra Lorena Jaume-Palasí, consultora y fundadora de The Ethical Tech Society, una organización multidisciplinar de análisis de la ética algorítmica. Esta española afincada en Berlín realizó un informe para el gobierno Alemán en el que examinó precisamente el funcionamiento de estos modelos. Vio que los usan desde Ikea a petroleras, pero también la propia UE.

Un error que se remonta a los sesenta

La idea de inferir el comportamiento humano a través del aspecto de las personas no es nueva. “Está vinculada a la frenología, la pseudociencia que trataba de vincular la geometría craneal a determinados comportamientos. Y a otras corrientes que siempre jerarquizaban al ser humano en categorías, siendo el hombre blanco la cúspide de la pirámide”, indica Jaume-Palasí.

En 1967, un psicólogo estadounidense llamado Paul Ekman viajó por las zonas montañosas de Papúa Nueva Guinea enseñando en las aldeas indígenas más remotas tarjetas con fotos de personas que expresaban asombro, contento o disgusto. Quería demostrar que todos los seres humanos presentan un pequeño número de emociones que son innatas, naturales, reconocibles por todo el mundo y transculturales. Pocos años después, Ekman pasó a ser una celebridad en la Academia.

Su teoría se basa en dos pilares. El primero es que cualquier persona es capaz de reconocer ciertas expresiones. Es decir, que si se le muestra una foto con una sonrisa a algún individuo de una sociedad relativamente aislada dirá que el de la imagen está alegre. Estas conclusiones se basan en una serie de estudios que se han hecho en países desarrollados y en el trabajo de Ekman en Papúa Nueva Guinea. “Lo que ocurre es que desde hace unos 20 años se están desarrollando unas nuevas investigaciones metodológicamente mejores que están mostrando que ese reconocimiento no es universal, sino que depende de factores culturales”, describe Fernández Dols. “Si te vas a Papúa o a ciertas partes de África te das cuenta de que ese supuesto reconocimiento universal no existe”, subraya.

Eso es precisamente lo que ha hecho su equipo. Repitió el experimento de Ekman en Papúa y en una isla de Mozambique, pero a diferencia de él, a Fernández Dols le acompañó un experto en la lengua y cultura de la zona, un detalle que lo cambia todo. Lisa Feldman y Maria Gendron, de la Universidad de Yale, hicieron lo propio en aldeas remotas de Namibia y Tanzania y llegaron a las mismas conclusiones. “Aunque parezca mentira, desde los años sesenta no se había hecho más investigación transcultural rigurosa. La nuestra y la de Yale ha sido la primera”, añade.

El segundo pilar de la teoría de Ekman es que la gente realmente dibuja en su rostro esas expresiones supuestamente universales cuando está experimentando una emoción: sonríe cuando está contento, frunce el ceño cuando está disconforme, etcétera. Esto es más difícil de comprobar, pero Fernández Dols lleva años trabajando en ello. “Lo que hemos visto es que cuando consigues registrar la expresión de la gente en situaciones en las que reporta sentir una determinada emoción, no aparecen las expresiones que se supone que se tienen que dar ante emociones determinadas”, explica.

Se puede sonreír y estar triste o avergonzado. Es más, una sonrisa no significa lo mismo en todas partes. Un estudio realizado en Yale simuló entrevistas de trabajo con chicas jóvenes. “El entrevistador hacía observaciones inapropiadas a las chicas y se registraba al mismo tiempo su conducta, y se vio que la mayoría sonreía en una situación obviamente estresante y desagradable. También sonríes cuando estás apurado o estresado, o en situaciones humorísticas que no necesariamente significan que estés feliz”, abunda el profesor.

Una simplificación conveniente

Pero las teorías de Ekman son tan atractivas que han entrado con fuerza en las aplicaciones de inteligencia artificial. “El modelo de Ekman aporta dos cosas esenciales para los sistemas de machine learning: una serie finita, estable y discreta de etiquetas que los humanos pueden usar para categorizar fotos de caras y un sistema para medirlas”, escribe Kate Crawford en su libro Atlas of AI (Yale University Press, 2021). “Permite eliminar el trabajo difícil de representar las vidas interiores de la gente sin ni siquiera preguntarles qué sienten”.

Según la autora australiana, los sistemas de detección de emociones están íntimamente vinculados al ámbito militar y de la seguridad. Bebieron de la financiación de los servicios de inteligencia estadounidenses durante la Guerra Fría, que se esforzaron en desarrollar el campo de la visión computacional (el reconocimiento de imágenes por parte de ordenadores). Tras el 11S, proliferaron los programas de investigación empleados para identificar a terroristas y detectar comportamientos sospechosos.

El problema es que, como tienen un error de base, estos sistemas fallan a menudo. Y suelen perjudicar a los de siempre. Un estudio de la Universidad de Maryland muestra que algunos sistemas de reconocimiento facial interpretan emociones negativas, particularmente enfado o mirada despectiva, de forma más frecuente en los rostros de las personas negras que en los de personas blancas. Estos sistemas tienen sesgos. Y de lo que carecen seguro es de base científica.

Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.

Suscríbete 1 año por 144 9,90 €+ Regalo edición impresa en la App

Un error que se remonta a los sesenta

Una simplificación conveniente

Archivado En

Suscríbete 1 año por 144 9,90 €
+ Regalo edición impresa en la App