Selecciona Edición
Entra en EL PAÍS
Conéctate ¿No estás registrado? Crea tu cuenta Suscríbete
Selecciona Edición
Tamaño letra

La otra cara del Big Data

En la era del algoritmo muchas de las decisiones cotidianas las toma un modelo matemático

Ampliar foto
Un alumno frente a una pizarra con fórmulas. Getty Images

Vivimos en la era del algoritmo. Muchas decisiones sobre nuestra actividad cotidiana (la cuota mensual que pagamos por un seguro médico, la selección de nuestro CV para una entrevista de trabajo, o la aceptación o rechazo de un crédito) no las toma ya un humano sino un modelo matemático. Y aunque, en teoría, esto debería conducir a una mayor igualdad ya que todo el mundo es juzgado en base a los mismos criterios, muchas veces ocurre lo contrario: los modelos son opacos, no están sujetos a regulación, con frecuencia están basados en hipótesis erróneas y refuerzan prácticas discriminatorias con los sectores más débiles de la sociedad. Esta marginación ha existido siempre, en la era digital simplemente se puede implementar de manera más eficiente e impersonal. Esta es la visión del reciente libro de Cathy O'Neill, Weapons of math destruction.

La prima mayor está justificada por un mayor riesgo, estimado sobre datos anteriores de personas con características similares

Las empresas de seguros usan complejos modelos para fijar la prima de un seguro en función de las características del solicitante: una persona más mayor pagará más seguro de salud, y un conductor con poca experiencia más seguro de automóvil. En ambos casos, la prima mayor está justificada por un mayor riesgo, estimado sobre datos anteriores de personas con características similares. Pero los datos también muestran que las personas de renta más baja tienen mayor riesgo de enfermedad, ¿es lícito cobrarles una prima más alta? Para el modelo matemático, “edad” ó “nivel de renta” son variables predictoras que se tratan por igual para afinar y mejorar la predicción. Sin embargo, la ética obliga a poner límites a la eficiencia de dichos algoritmos, y condiciona por ejemplo qué variables son susceptibles de ser utilizadas. Con frecuencia los modelos utilizan proxys: variables supuestamente correlacionadas con otras de las que no disponen de información suficiente. Por ejemplo, usar el código postal como proxy del nivel de renta. El abuso de esta práctica produce modelos estadísticos cuyos datos de aprendizaje son poco más que ruido, y conducen a predicciones erróneas. Cómo dicen en la jerga: si metes basura, sacas basura.

El Proyecto para la transparencia de la web, desarrollado por la Universidad de Princeton, es una iniciativa para detectar este tipo de modelos discriminatorios, evaluando cómo las compañías utilizan los datos de consumidores, garantizando la privacidad y la ética en su uso.

Compartir datos es necesario para el desarrollo de muchas aplicaciones beneficiosas y permite una gestión más eficiente de los recursos comunes

Compartir datos es necesario para el desarrollo de muchas aplicaciones beneficiosas y no sólo permite una gestión más eficiente de los recursos comunes sino que hace avanzar la investigación biomédica. Por eso, es importante garantizar que las bases de datos que se hacen públicas sean anonimizadas de manera robusta, es decir, que no sea posible la identificación de un individuo con información parcial. Muchas bases de datos en el ámbito de las comunicaciones y las finanzas se han demostrado vulnerables en este sentido, y permiten por ejemplo averiguar el domicilio de una persona simplemente a partir de una foto en la que se la vea salir de un taxi.

Las grandes corporaciones recopilan datos de sus usuarios de manera masiva, lo que las coloca en una situación inmensamente privilegiada frente al resto de la sociedad. Una pequeña modificación del algoritmo de Facebook que selecciona los mensajes que aparecen en el muro permitió demostrar que la red social puede propagar estados de ánimo en una población. El experimento recibió duras críticas por no contar con la autorización de los usuarios, pero reveló el inmenso poder de los algoritmos en la red social, que fácilmente podrían influenciar el resultado de unas elecciones.

Una pequeña modificación del algoritmo de Facebook permitió demostrar que la red social puede propagar estados de ánimo en una población

Frente a esta visión de prácticas abusivas, existen proyectos que promueven el uso del Big Data para el bien común. El proyecto Open Algorithms, liderado por Alex Pentland, del MIT Media Lab, propone nuevas formas de intercambio de información para garantizar la privacidad de los datos personales, a la par que permitir el funcionamiento seguro de aplicaciones colaborativas con datos compartidos. Además, insiste en que los algoritmos matemáticos que traten con estos datos sean públicos y auditables.

La sociedad ha de ser consciente del creciente papel que juegan estos modelos matemáticos en la toma de decisiones. Aunque no todo el mundo pueda tener los conocimientos técnicos para entender su funcionamiento en detalle, es deseable que una amplia mayoría no sólo sea capaz de manejar aplicaciones con datos para su uso personal, sino que entienda sus implicaciones en un contexto más amplio. Además, las autoridades competentes han de crear mecanismos de auditoría para garantizar la transparencia en el funcionamiento de dichas herramientas.

David Gómez-Ullate es coordinador del laboratorio de ciencia de datos en el Instituto de Ciencias Matemáticas y Profesor Titular de Matemática Aplicada en la Universidad Complutense.

Café y Teoremas es una sección dedicada a las matemáticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matemáticas (ICMAT), en la que los investigadores y miembros del centro describen los últimos avances de esta disciplina, comparten puntos de encuentro entre las matemáticas y otras expresiones sociales y culturales, y recuerdan a quienes marcaron su desarrollo y supieron transformar café en teoremas. El nombre evoca la definición del matemático húngaro Alfred Rényi: “Un matemático es una máquina que transforma café en teoremas”.

Más información