Un tuit..., ¿un voto?
La revolución del ‘big data’, con su recogida masiva de información, promete cambiar los sondeos de opinión. Pero las últimas experiencias electorales aconsejan emplear estas técnicas como complemento a los métodos tradicionales
En mayo de 2010, cuatro profesores de la Universidad Técnica de Múnich publicaron un estudio sobre las elecciones celebradas el año anterior en Alemania. A primera vista, el documento no era gran cosa: los autores ratificaban el resultado de las elecciones nueve meses después de que se hubieran celebrado. Lo que resultaba más llamtivo era cómo habían elaborado el estudio sobre la intención de voto sus autores: habían contado el número de menciones que recibía cada partido en Twitter durante las cuatro semanas anteriores a los comicios. Resultó que el número de tuits correspondiente a cada partido se aproximaba mucho al porcentaje final de votos obtenidos, más incluso que los resultados que habían pronosticado las encuestas previas a la votación. La ecuación se antojaba sencilla: a más tuits, más votos.
El ensayo parecía indicar que la demoscopia podía cambiar para siempre gracias al uso del big data (datos a gran escala) y, más en concreto, gracias a los datos que generamos a diario cuando utilizamos las redes sociales. En España existen aproximadamente 13 millones de usuarios de Twitter. De media, tuitean cinco veces al día. Eso representa un enorme volumen de texto, equivalente a la escritura de 2.000 ejemplares diarios de la Biblia. Supongamos que alguien intentase leer todos esos tuits. ¿No acabaría comprendiendo mucho mejor los pensamientos (banales, profundos, mezquinos) de sus conciudadanos? De ser así, ¿por qué no emplear todos esos datos para prever qué ocurrirá cuando esos ciudadanos acudan a las urnas?
Lo que suelen responder quienes se dedican a los sondeos es que "el tamaño no importa". Las muestras reducidas son útiles si son representativas de la población en general; por ejemplo, si se escoge a las personas de forma aleatoria. En cambio, otras muestras más amplias pueden ser incluso perjudiciales si no son típicas de la población en general. Los usuarios de Twitter son muy numerosos, pero no son una muestra representativa (suelen ser más jóvenes y más de izquierdas), y los tuits recogidos aleatoriamente no representan tampoco la opinión general ni en Twitter ni en la población.
Recientemente, las elecciones generales británicas en 2015 mostraron la falta de consistencia de la ecuación a más tuits, más votos. Antes de los comicios, un grupo de investigadores predijo que el Partido Nacional Escocés (SNP), que recibía muchos tuits favorables, obtendría el 9,2% de los votos, una cifra 0,5 puntos superior al porcentaje que representa Escocia en la población total de Reino Unido. Hay muchos escoceses que utilizan Twitter y muchos escoceses que apoyan al SNP, pero estos últimos suelen ser más activos que quienes no lo son, por lo que es imposible intentar hacer previsiones sobre resultados electorales basándose en los tuits.
En las elecciones británicas de 2015, lo hicieron tan mal los sondeos como los analistas del big data
¿Significa esto que debemos conformarnos con los métodos tradicionales de encuesta? No necesariamente. En las elecciones británicas de 2015, fallaron rotundamente tanto los sondeos de opinión tradicionales como los analistas del big data. Todas las previsiones basadas en encuestas (incluida la mía) decían que el Partido Laborista y el Conservador iban a obtener prácticamente un empate. Sin embargo, los conservadores lograron una victoria contundente, seis puntos por encima de los laboristas.
Los motivos de este fracaso —y de otros fracasos demoscópicos recientes en Israel y Argentina— no están claros todavía. Pero seguramente tienen que ver con el pequeño secreto que guarda el sector: las muestras que utilizan las empresas de encuestas son cada vez menos representativas de una muestra aleatoria de la población. Es difícil que algunos métodos de sondeo (entrevistas telefónicas, grupos de Internet) reflejen ciertos sectores de la población. Si una muestra tiene, por ejemplo, menos personas mayores de las que hay en general, las empresas dan más peso del debido a las personas mayores entrevistadas.
La reponderación está muy bien con aspectos como la edad y el sexo, porque los censos nacionales nos permiten saber cuántas personas componen cada categoría demográfica. Ahora bien, cuando se trata de otros atributos, no podemos recalibrar de forma tan sencilla. Uno de los problemas en Reino Unido ha sido que en las muestras había poca representación de las personas políticamente menos activas, que colgaban el teléfono a los encuestadores y no participaban en los grupos de Internet. Esto es mucho más difícil de corregir mediante una reponderación, porque el censo, obviamente, no registra cuántas personas tienen interés por la política.
Los problemas de predicción que tienen las encuestas tradicionales no son tan graves como los que tiene el uso del big data. Daniel Gayo-Avello, de la Universidad de Oviedo, se ha dedicado a estudiar los aciertos de las previsiones basadas en Twitter, y su conclusión es que, en general, son menos que los aciertos que han obtenido las encuestas. Así que la recogida masiva de datos no se ha popularizado porque nos ayude a predecir mejor los resultados electorales, sino porque contribuye a que los partidos identifiquen a los votantes y puedan dirigirse a ellos.
La recogida masiva de datos se ha popularizado porque ayuda a identificar a los votantes, no por sus predicciones
En julio del año pasado, el Partido Laborista británico puso en marcha una herramienta de Internet capaz de decir a una persona qué número de niño era dentro del Servicio Nacional de Salud (NHS). Pedía la fecha de nacimiento, una dirección de correo electrónico y un código postal y decía a cambio el número aproximado (yo nací en 1982 y el NHS se fundó en 1948; por consiguiente, soy aproximadamente el niño número 24 millones). Era una herramienta ingeniosa por varios motivos. Hacía que la gente pensara en el NHS, una cuestión en la que los laboristas tenían ventaja respecto a los conservadores. Obligaba a decir la fecha de nacimiento, un elemento útil para agrupar a los votantes, pero también para relacionar datos. Y, como pedía un código postal, permitía que el partido cruzara los datos con los del censo electoral. Los que usaban la herramienta recibían correos del partido, con mensajes que muchas veces ponían especial énfasis en la sanidad.
'Puerta' a 'puerta'
- EE UU. La campaña para la reelección de Obama fue pionera. Se asignó a cada votante una nota de probabilidad en varias dimensiones, como la posibilidad de hacer donaciones o la dificultad para persuadirles de que votaran a Obama. Así se centraban en una serie de electores. Para afinar tanto es clave que la gran cantidad de información a la que los partidos tienen acceso en ese país, comprada no por poco dinero a brokers de datos comerciales.
- Reino Unido. Los tres partidos principales recurrieron a plataformas de big data en las elecciones de mayo pasado. Pero los resultados distan de los de Obama, por la mayor protección de datos en Europa.
- Canadá. En las últimas elecciones, en octubre, los tres partidos utilizaron plataformas y aplicaciones móviles para, entre otras cosas, organizar datos recogidos en las visitas a los electores.
La herramienta de los laboristas podría haber sido mucho más agresiva en su recogida de datos. Las herramientas de este tipo son comunes en Facebook, pero no es tan frecuente que luego comprobemos a qué tipo de datos tienen acceso. Los proveedores de datos a gran escala tienen hoy un poder comparable al de las agencias de calificación del crédito. Los sondeos nacieron como una forma de emancipación, una forma de que la estadística proporcionara una valoración pública y verificable del ánimo del electorado. La carga de responder recaía sobre unos cuantos entrevistados seleccionados al azar. El uso de los datos a gran escala, por el contrario, ofrece enormes cantidades privadas de información y hace que la carga esté en todos.
Es fácil destacar los éxitos de las encuestas. Pero el mayor éxito del big data tiene que ver con su función como “persuasor oculto”, algo sobre lo que escribió Vance Packard en su célebre ensayo de 1957 sobre manipulación mental Las formas ocultas de la propaganda.
Chris Hanretty es profesor de Política en la Universidad de East Anglia y cofundador del sitio web electionforecast.co.uk.
Traducción de María Luisa Rodríguez Tapia.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.