Cinco maneras en que el ‘machine learning’ puede complicarte la vida
Cuando los datos nos representan mal, los sistemas que han aprendido de ellos nos tratan mal. Repasamos el origen de los sesgos más frecuentes
El aprendizaje automático no cae del cielo. Se apoya en la asimilación de patrones en datos históricos y utiliza esto para generalizar lo aprendido a nuevas informaciones. Si los datos empleados en la fase de entrenamiento nos representan mal, los sistemas resultantes nos tratarán mal. Por los datos empieza el reguero de complicaciones que pueden hacer que estos sistemas automatizados y -en principio- libres de intereses particulares que afecten a su justo rendimiento, nos hagan una faena.
En este supuesto los datos, podrían ser, por ejemplo, un conjunto de fotos de gente de todas las edades; el sistema automatizado, una herramienta para detectar sonrisas; y la faena podría concretarse en un mayor número de errores en el caso de las mujeres, todo producto de que en las imágenes empleadas para entrenar el sistema, este colectivo estaba menos representado.
"Pues no es para tanto", dirás. El problema es que el que estés escasamente representada en los datos es solo uno de los factores que pueden complicarte la vida. Y que esta miopía algorítmica puede afectar a asuntos mucho más serios que tu sonrisa. Puede dañar a tu salud, tu carrera, tu privacidad y seguridad... Y todo empieza por los datos. "Hoy en día en los modelos de aprendizaje automático datos y algoritmos son indisociables: el algoritmo se adaptará siempre a los datos de entrenamiento, por lo que es en los datos en donde reside el riesgo y donde han de focalizarse las acciones de mitigación de estos riesgos", explica Juan Murillo, del área de estrategia global de datos de BBVA.
- Cinco semillas del mal (algoritmo)
Para Harini Suresh y John V. Guttag, investigadores de Instituto Tecnológico de Massachusetts (MIT), existen cinco fuentes de problemas que pueden lastrar las decisiones de un algoritmo. "El término sesgo se refiere a una propiedad potencialmente dañina de los datos", señalan en un estudio sobre las consecuencias no intencionadas del machine learning.
La primera debilidad es que el mundo es mejorable. Aunque los datos se obtengan con medias perfectas y muestras idealmente diseñadas, la pura inercia de nuestra sociedad imperfecta puede contaminar el modelo. Así, unos datos de criminalidad perfectamente recopilados podrían aún reflejar factores históricos que han contribuido a que en los barrios más pobres haya más incidencia. "Aunque un sistema así refleje el mundo con precisión, puede infligir daños en parte de la población", señalan los investigadores.
Un caso real de este fenómeno, conocido como sesgo histórico, es el que se daba al buscar imágenes de CEOs en Google. "En 2018, un 5% de los CEOs del Fortune 500 eran mujeres. ¿Deben los resultados del motor de búsqueda reflejar ese número?", se preguntaban los investigadores. Para el titán de internet, la respuesta fue negativa: los resultados se ajustaron para mostrar una mayor proporción de mujeres.
- No nos representan
ImageNet es una base de datos de imágenes de uso recurrente para el entrenamiento de sistemas de reconocimiento en la que la distribución de la población mundial aparece particularmente representada: un 45% de las fotografías se han tomado en Estados Unidos y la mayoría representan a norteamericanos y europeos. En ImageNet, China concentra un 1% de las imágenes.
Cuando se dan estos desequilibrios en la necesaria diversidad de los datos, nos encontramos con modelos que reconocen a la perfección aquello que más han visto y se hacen líos con los grupos menos presentes. Se trata de un sesgo de representación. "Esto en ocasiones supone un reto porque no todos dejamos una huella digital de un volumen proporcional a nuestra participación demográfica, es el caso de los ancianos. A veces para que sean tenidos en cuenta por los algoritmos hay que sobreponderar la huella digital de colectivos minoritarios", añade Murillo.
- Malas medidas, malos resultados
En 2016, un algoritmo se hizo tristemente famoso por su tendencia a ver más riesgos de criminalidad en la población de color. La herramienta se llama COMPAS y se estaba empleando para apoyar puestas en libertad tempranas e incluso fijar fianzas y emitir sentencias. Aquí el problema fue el sesgo en las medidas empleadas para entrenar al algoritmo. "Es habitual que las comunidades minoritarias estén sometidas a mayor actividad policial y tengan tasas de detenciones superiores, hay un mapeo distinto desde el crimen hasta la detención en estas comunidades", señalan los investigadores.
¿Nos estamos precipitando al poner en funcionamiento estos sistemas, vistos los riesgos que entrañan? "Podría decirse que la manifestación de ciertos sesgos suele ser el resultado de una precipitación en la puesta en producción de una solución analítica, pero no necesariamente apunta a un problema de falta de madurez en la tecnología. Lo que ha fallado en estos casos es el control de calidad antes de poner un algoritmo en producción", razona Murillo.
- Algoritmos de talla única
Uno para todos tampoco es una receta que funcione cuando diferentes colectivos pueden estar sometidos a condiciones diferentes. Aquí el algoritmo falla precisamente porque incorpora demasiada diversidad e incurre en lo que se conoce como sesgo de agregación. Los investigadores del MIT ponen de ejemplo las complicaciones asociadas a la diabetes y cómo estas varían en función de la etnia de los afectados.
"Es difícil que un único modelo se ajuste a cualquier grupo de población, aunque estén igualmente representados en los datos, porque diferentes factores tienen distintos significados e importancias dentro de una subpoblación", señalan.
- Aprobados regalados
La aplicación de controles de calidad tampoco es garantía de que el algoritmo esté libre de pecado, sobre todo cuando los aspectos que evalúan no bastan para certificar su correcto rendimiento. Este detalle es, por ejemplo, responsable de que sistemas de reconocimiento facial que en principio han sido validados resulten imprecisos una vez en el mercado. Así lo comprobó otra pareja de investigadores del MIT, Joy Buolamwini y Timnit Gebru, al analizar tres sistemas de clasificación de género: las mujeres de color presentaban tasas de error del 34.7%, mientras que los hombres blancos obtenían una tasa del 0,8%.
Este sesgo de evaluación se les escapó porque las mujeres de color también estaban infrarrepresentadas en los datasets empleados para hacer el control de calidad, de modo que aunque se dieran errores, estos afectaban muy levemente a la valoración global de la precisión del algoritmo.
En este contexto han surgido herramientas como Aequitas o AI Fairness 360 permiten evaluar lo algoritmos para identificar sesgos antes de que sea demasiado tarde. ¿Son suficientes? "Pueden ayudan a industrializar y escalar determinadas verificaciones de control de calidad, comprobando por ejemplo el equilibrio de los colectivos representados en los datasets de entrenamiento, y acelerando controles que hoy en día son manuales, pero hay otras verificaciones que deberán seguir siendo llevadas a cabo por los científicos de datos", asegura Murillo.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.