Las máquinas reproducen los sesgos sexistas y racistas de los humanos

Los sistemas de inteligencia artificial de uso generalizado absorben los estereotipos culturales del lenguaje

Javier Sampedro

17 abr 2017 - 13:30CEST

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

Una selección de retratos de robots durante una feria en Londres, el pasado febrero.Alastair Grant / AP

Los sistemas lingüísticos de la inteligencia artificial (AI, en sus siglas inglesas) están por todas partes: en el reconocimiento de voz para mensajes de texto, en unos correctores sintácticos cada vez más agudos, en unos servicios de traducción en línea que cada vez requieren menos edición manual posterior. Los científicos acaban de descubrir que estos sistemas de AI de uso generalizado tienen sesgos sexistas y racistas. No es extraño, porque los han aprendido de nosotros.

El “aprendizaje automático” (machine learning) es un campo de las ciencias de la computación que permite a las máquinas descubrir pautas en los datos masivos preexistentes. Cuando esos datos son textos (libros, artículos, blogs), las máquinas acaban reproduciendo los mismos sesgos sexistas y racistas que estaban camuflados en el lenguaje humano. Esto es lo que acaban de descubrir Aylin Caliskan y sus colegas del Centro de Políticas sobre Tecnología de la Información de la Universidad de Princeton, en New Jersey. Presentan su investigación en Science (artículo de libre acceso).

La mala noticia es que el aprendizaje automático hace que las máquinas reproduzcan la sesgada distribución sexual y racial que los humanos mostramos, de forma inconsciente, en cuestiones tan importantes como la elección de carrera profesional o la selección de candidatos a un empleo. La buena es que el propio método que han desarrollado Caliskan y sus colegas abre la posibilidad de detectar esos sesgos y, tal vez, corregirlos. Pero eso es todavía un tiro muy largo. Lo único seguro es que los estereotipos culturales se propagan a unas tecnologías de AI de uso generalizado.

“Tanto los motores de búsqueda como las redes sociales utilizan texto”, explica Caliskan a Materia. “Pueden hacer ciertas asociaciones basadas en el texto con que se les alimenta mediante sistemas similares al que hemos usado en este trabajo. Pero, puesto que los buscadores, las redes sociales, los juegos de póker o iTunes no tienen código abierto (open source), no puedo hacer ningún comentario sobre la forma exacta en que incorporan el texto en sus sistemas. En cualquier caso, los buscadores y las redes sociales más populares han mencionado que usan estos sistemas para varias tareas”.

Los nombres de mujeres se asocian más con palabras relativas a la familia que con las relativas a la carrera profesional, y lo contrario ocurre con los nombres masculinos

Caliskan y sus colegas se han basado en un test para los sesgos humanos desarrollado en los años noventa por el psicólogo Anthony Greenwald, de la Universidad de Washington en Seattle. Se llama Test de Asociación Implícita (IAT en sus siglas inglesas), y constituye la principal fuente de información sobre los sesgos inconscientes humanos. Se basa en presentar pares de palabras a los voluntarios y pedirles que pulsen una tecla si los encuentran relacionados, y otra si los encuentran inconexos. El tiempo de respuesta es muy diferente si existe o no una asociación inconsciente entre esas dos palabras.

Los científicos de Princeton han diseñado un test de asociación implícita para máquinas. En lugar del tiempo de respuesta de una persona, aquí se mide el grado de asociación que la máquina otorga a dos palabras mediante una técnica estadística basada en la coocurrencia de ambas en un texto. El método se llama “encaje de palabras” (word embedding), y es el sistema de uso generalizado en AI al que se refería Caliskan. Los más conocidos son GloVe, desarrollado por científicos de Stanford, y el word2vec de Google.

Con su test psicológico adaptado para máquinas, los científicos han reproducido todos los estereotipos inconscientes que los humanos habíamos revelado antes en el IAT. Algunos no tienen valor moral, como la asociación entre flores y placer, y entre insectos y malestar. Pero los interesantes son los demás, los que sí tienen valor moral.

Por ejemplo, los nombres asociados a los estadounidenses de origen europeo se asocian más a términos placenteros que los nombres típicos afroamericanos. Los nombres de mujeres se asocian más con palabras relativas a la familia que con las relativas a la carrera profesional, y lo contrario ocurre con los nombres masculinos. Las palabras “mujer” o “chica” se asocian más a las artes que a las matemáticas o las ciencias. Más aún: estos sesgos sexistas correlacionan muy bien con el porcentaje de mujeres en 50 empleos (datos de Estados Unidos en 2015).

En resumen, el trabajo indica que, “si construimos un sistema inteligente que aprende lo bastante sobre las propiedades del lenguaje como para ser capaz de entenderlo y reproducirlo, en el proceso la máquina adquirirá también asociaciones culturales históricas, y algunas de ellas pueden ser inaceptables”. Si los científicos de la computación quieren evitar esos sesgos, les queda un montón de trabajo por hacer.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Añadir usuario Continuar leyendo aquí

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.