Selecciona Edición
Entra en EL PAÍS
Conéctate ¿No estás registrado? Crea tu cuenta Suscríbete
Selecciona Edición
Tamaño letra

Cómo funcionaba el modelo de Cambridge Analytica, según la persona que lo construyó

¿Con qué precisión se puede determinar tu perfil psicológico en Internet?

Ilustración en tres dimensiones de la marca de Facebook. Ampliar foto
Ilustración en tres dimensiones de la marca de Facebook. REUTERS

El investigador cuyo trabajo ha desatado la polémica en torno al análisis de datos y la publicidad política de Facebook-Cambridge Analytica ha revelado que su método funcionaba básicamente como el que utiliza Netflix para recomendar películas.

En el correo electrónico que me envió, el profesor de la Universidad de Cambridge Aleksandr Kogan me explicaba que su modelo estadístico procesaba los datos de Facebook para Cambridge Analytica. La precisión que afirma que tiene indica que funciona tan bien como los métodos establecidos para la captación de votantes basados en datos demográficos como la raza, la edad y el sexo.

De confirmarse, el relato de Kogan significaría que el modelo digital que empleaba Cambridge Analytica no es precisamente la bola de cristal virtual que algunos afirmaban que era. Sin embargo, las cifras que aporta Kogan también muestran lo que realmente puede hacerse – y lo que no – combinando los datos personales con el aprendizaje automático con fines políticos.

Sin embargo, en relación con una de las principales preocupaciones generales, las cifras de Kogan dan a entender que la información sobre la personalidad o la “psicografía” de los usuarios era solo una pequeña parte del modelo que se empleaba para atraer a los ciudadanos. No era un modelo de personalidad en el sentido estricto de la palabra, sino uno que recababa datos sobre demografía, influencias sociales, personalidad y todo lo demás y lo reducía a un conjunto correlacionado. Parece que este método de recoger todas las correlaciones y llamarlo personalidad ha creado una herramienta de campaña valiosa, aunque el producto que se vendía no era exactamente lo que se anunciaba.

La promesa de una selección basada en la personalidad

A raíz de las revelaciones de que los asesores de la campaña de Trump de Cambridge Analytica usaron datos de 50 millones de usuarios de Facebook para hacer publicidad política digital personalizada durante las elecciones presidenciales estadounidenses de 2016, Facebook ha perdido miles de millones en valor bursátil, los Gobiernos a ambos lados del Atlántico han abierto investigaciones y un nuevo movimiento social ha hecho un llamamiento a los usuarios para que dejen Facebook (#DeleteFacebook).

Pero no se ha respondido a una pregunta fundamental: ¿pudo realmente Cambridge Analytica enviar mensajes de campaña personalizados a los ciudadanos basándose en sus rasgos de personalidad, o incluso en sus “demonios internos”, como afirmaba una persona de la empresa que destapó el asunto?

Si alguien sabe qué es lo que hizo Cambridge Analytica con sus valiosos datos de Facebook, esos son Aleksandr Kogan y Joseph Chancellor, porque su empresa tecnológica Global Science Research fue la que recogió la información de los perfiles de 270.000 usuarios de Facebook y de decenas de millones de sus amigos usando una aplicación para tests de personalidad llamada “thisisyourdigitallife” [esta es tu vida digital].

Una parte de mi propia investigación se centra en entender los métodos de aprendizaje automático, y mi próximo libro habla de cómo las empresas digitales utilizan modelos de recomendaciones para aumentar su audiencia. Y tuve una corazonada de cómo funcionaba el modelo de Kogan y Chancellor.

Por eso le mandé un correo electrónico a Kogan para preguntárselo. Kogan sigue siendo un investigador de la Universidad de Cambridge; su colaborador Chancellor trabaja ahora en Facebook. Y Kogan respondió haciendo gala de una extraordinaria cortesía académica.

Su respuesta requiere algo de análisis y un poco de contexto.

Del Premio Netflix a la “psicometría”

Allá por el año 2006, cuando todavía era una empresa de envíos de DVD por correo, Netflix ofreció un premio de 1 millón de dólares a quien desarrollase un método para realizar predicciones sobre las clasificaciones de las películas de los usuarios mejor que el que ya tenía la empresa. Uno de los principales contrincantes era un desarrollador de software independiente que utilizaba el pseudónimo de Simon Funk, cuyo planteamiento básico se incluyó finalmente en las propuestas de todos los principales equipos. Funk adaptó una técnica llamada “descomposición en valores singulares” que condensaba las clasificaciones de las películas de los usuarios en una serie de factores o componentes, básicamente un grupo de categorías derivadas, clasificadas por importancia. Como Funk explicaba en una entrada de un blog:

“Así, por ejemplo, una categoría podía representar las películas de acción, con películas con mucha acción en los primeros puestos y las películas lentas en los últimos puestos, y, por tanto, los usuarios a los que les gustan las películas de acción en los primeros puestos y los que prefieren las películas lentas en los últimos”.

Las predicciones del modelo serían especialmente buenas para los usuarios más activos de Facebook

Los factores son categorías artificiales, que no son siempre como las categorías que inventarían los seres humanos. El factor más importante en el modelo inicial de Funk para Netflix lo definían los usuarios a los que les encantaban películas como Pearl Harbor y La experta en bodas, y que también odiaban películas como Lost in Translation y ¡Olvídate de mí! Su modelo mostraba la manera en que el aprendizaje automático puede encontrar correlaciones entre grupos de personas y grupos de películas que los propios seres humanos nunca encontrarían.

El planteamiento general de Funk utilizaba los 50 o 100 factores más importantes tanto para los usuarios como para las películas para predecir adecuadamente cómo clasificaría cada usuario cada película. Este método, a menudo llamado reducción de la dimensionalidad o factorización de matrices, no era nuevo. Los investigadores de ciencia política habían demostrado que unas técnicas similares que emplean datos de votaciones nominales podían predecir los votos de los miembros del Congreso con una precisión del 90%. En psicología, el modelo de los “Cinco Grandes” también se había empleado para predecir comportamientos agrupando preguntas sobre la personalidad a las que se solía contestar de manera parecida.

Aun así, el modelo de Funk representaba un gran avance: permitía que la técnica funcionase bien con enormes bases de datos, incluso aquellas a las que les faltaban muchos datos, como la base de datos de Netflix, en la que un usuario normal solo puntuaba algunas películas de las miles que había en la cinemateca de la empresa. Más de una década después de que terminase el concurso del Premio Netflix, los métodos basados en SVD (descomposición en valores singulares), o modelos relacionados para datos implícitos, siguen siendo la herramienta que eligen muchos sitios web para predecir lo que los usuarios leerán, verán o comprarán.

Estos modelos también pueden predecir otras cosas.

Facebook sabe si eres republicano

En 2013, los investigadores de la Universidad de Cambridge Michal Kosinski, David Stillwell y Thore Graepel publicaron un artículo sobre la capacidad predictiva de los datos de Facebook usando la información recogida mediante un test de personalidad en Internet. Su análisis inicial era casi idéntico al que se utilizó para el Premio Netflix, que empleaba SVD para clasificar tanto a los usuarios como las cosas que les “gustaban” en 100 factores principales.

El artículo mostraba que un modelo de factores realizado solo con los “Me gusta” de los usuarios de Facebook ofrecía una precisión del 95% para distinguir entre participantes blancos y negros; del 93% para distinguir entre hombres y mujeres; y del 88% para distinguir entre hombres que se identificaban como homosexuales y los que se identificaban como heterosexuales. E incluso podía diferenciar correctamente a los republicanos de los demócratas el 85% de las veces. También era útil, aunque no tan preciso, para predecir las notas de los usuarios en el test de personalidad de los “Cinco Grandes”.

A raíz de aquello estalló una protesta generalizada; al cabo de unas semanas, Facebook hizo que los “Me gusta” de los usuarios fuesen privados por defecto.

Kogan y Chancellor, que también eran investigadores de la Universidad de Cambridge en aquella época, empezaron a utilizar datos de Facebook para captar votantes en las elecciones como parte de una colaboración con SCL, la empresa matriz de Cambridge Analytica. Kogan invitó a Kosinski y a Stillwell a unirse a su proyecto, pero la cosa no funcionó. Supuestamente, Kosinski sospechaba que Kogan y Chancellor podrían haber rediseñado el modelo de “Me gusta” de Facebook para Cambridge Analytica. Kogan lo negó y afirmó que su proyecto “elabora todos nuestros modelos utilizando nuestros propios datos, recabados utilizando nuestro propio software”.

¿Qué hicieron realmente Kogan y Chancellor?

A medida que se desarrollaba la historia, resultaba evidente que Kogan y Chancellor habían obtenido muchos de sus propios datos a través de la aplicación thisisyourdigitallife. Y sin duda podrían haber construido un modelo de SVD predictivo como el que aparecía en la investigación que publicaron Kosinski y Stillwell.

El modelo podría identificar a hombres republicanos más mayores y con menor formación

Por eso le envié un correo electrónico a Kogan para preguntarle si eso era lo que había hecho. Para mi sorpresa, me respondió.

“No usamos exactamente SVD”, escribía, señalando que los SVD pueden experimentar dificultades cuando algunos usuarios tienen muchos más “me gusta” que otros. En cambio, explicaba Kogan, “la técnica era algo que en realidad desarrollamos nosotros... No es algo que sea de dominio público”. Sin entrar en detalles, Kogan describía su método como “un planteamiento de coocurrencias de pasos múltiples”.

Sin embargo, su mensaje confirmaba después que su planteamiento era sin duda similar a los SVD o a otros métodos de factorización de matrices, como los del concurso del Premio Netflix, y en el modelo de Facebook de Kosinki-Stillwell-Graepel. La reducción de la dimensionalidad de los datos de Facebook era la base de su modelo.

¿Qué precisión tenía?

Kogan indicaba, no obstante, que el modelo exacto utilizado no tenía mucha importancia y que lo verdaderamente importante es la precisión de sus predicciones. Según Kogan, la “correlación entre las notas predichas y las notas reales... era de aproximadamente [30%] en todos los aspectos de la personalidad”. En comparación, las notas anteriores en los Cinco Grandes de una persona tienen una precisión de aproximadamente entre el 70% y el 80% al predecir sus notas cuando vuelven a realizar el test.

Naturalmente, las afirmaciones de Kogan sobre la precisión no pueden comprobarse de manera independiente. Y cualquiera que estuviese en el centro de un escándalo mediático así podría tener motivos para restar importancia a su aportación. En su aparición en CNN, Kogan explicó a un Anderson Cooper cada vez más incrédulo que, de hecho, los modelos en realidad no habían funcionado muy bien.

De hecho, la precisión que Kogan afirma que tiene parece un poco baja, pero plausible. Kosinski, Stillwell y Graepel informaron de unos resultados comparables o ligeramente mejores, como lo han hecho otros estudios académicos empleando huellas digitales para predecir la personalidad (aunque algunos de los estudios tenían más datos aparte de los “Me gusta” de Facebook). Resulta sorprendente que Kogan y Chancellor se tomasen la molestia de diseñar su propio modelo patentado si las soluciones comercializadas se consideraban igual de precisas.

Sin embargo, lo importante es que la precisión del modelo en cuanto a las notas de la personalidad permite comparar los resultados de Kogan con otras investigaciones. Los modelos publicados con una precisión equivalente en la predicción de la personalidad son mucho más precisos para adivinar las características demográficas y las variables políticas.

Por ejemplo, el modelo parecido de SVD de Kosinski-Stillwell-Graepel tenía una precisión del 85% para adivinar la afiliación política, incluso sin utilizar ninguna información de perfiles salvo los “Me gusta”. El modelo de Kogan tenía una precisión similar o mejor. Si se le añadiese alguna información, por pequeña que fuese, sobre los datos demográficos de amigos o de usuarios, esta precisión probablemente aumentaría y superaría el 90%. Las suposiciones sobre el sexo, la raza, la orientación sexual y otras características también presentaban una precisión superior al 90%.

Fundamentalmente, estas suposiciones serían especialmente buenas para los usuarios más activos de Facebook, es decir las personas para las que el modelo se había diseñado en un principio. De todos modos, los usuarios con menos actividad para analizar probablemente no están mucho en Facebook.

Cuando la psicografía es sobre todo demografía

El saber cómo está construido el modelo ayuda a explicar las declaraciones aparentemente contradictorias de Cambridge Analytica sobre el papel que desempeñaron – o dejaron de desempeñar – el análisis de la personalidad y la psicografía en su modelo. Encajan técnicamente con lo que Kogan describe.

Un modelo como el de Kogan ofrecería estimaciones para cada variable disponible sobre cualquier grupo de usuarios. Eso significa que calcularía aproximadamente de manera automática las notas de la personalidad de los Cinco Grandes para cada votante. Pero estas notas de la personalidad son el resultado del modelo, no los elementos. Lo único que sabe el modelo es que algunos “Me gusta” de Facebook, y algunos usuarios, suelen agruparse.

Con este modelo, Cambridge Analytica podría decir que identificaba a personas con escasa predisposición a la experimentación y una neurosis elevada. Pero el mismo modelo, con exactamente las mismas predicciones para cada usuario, podría identificar con la misma precisión a hombres republicanos más mayores y con menor formación.

La información de Kogan también ayuda a aclarar la confusión sobre si Cambridge Analytica borró verdaderamente sus valiosos datos de Facebook, cuando parece que los modelos construidos a partir de los datos siguen circulando e incluso se desarrollan más.

La finalidad de un modelo de reducción de la dimensión es representar matemáticamente los datos de una manera más sencilla. Es como si Cambridge Analytica hiciese una fotografía de muy alta resolución, ajustase su tamaño para que fuese más pequeña y luego borrase el original. La foto todavía existe, y mientras exista el modelo de Cambridge Analytica, también existen los datos.

Matthew Hindman es profesor asociado de Medios de Comunicación y Asuntos Públicos en la Universidad George Washington

Cláusula de divulgación: Matthew Hindman no trabaja para ninguna empresa u organización que pueda beneficiarse de este artículo, no las asesora, no posee acciones en ellas ni recibe financiación. Tampoco declara otras vinculaciones relevantes aparte del cargo académico mencionado.

Este artículo fue publicado originalmente en inglés en la web The Conversation.

Traducción de News Clips.

The Conversation

Más información