_
_
_
_
_
IDEAS
Análisis
Exposición didáctica de ideas, conjeturas o hipótesis, a partir de unos hechos de actualidad comprobados —no necesariamente del día— que se reflejan en el propio texto. Excluye los juicios de valor y se aproxima más al género de opinión, pero se diferencia de él en que no juzga ni pronostica, sino que sólo formula hipótesis, ofrece explicaciones argumentadas y pone en relación datos dispersos

Por qué las encuestas necesitan ‘cocina’

El presidente del CIS desconfía de los modelos estadísticos para predecir el voto. Pero esas técnicas son cada vez más necesarias

Kiko Llaneras
Salón de plenos del Congreso de los Diputados.
Salón de plenos del Congreso de los Diputados.claudio álvarez

Imaginen que hago una encuesta a la salida de un mitin y luego les intento convencer de que el resultado es concluyente. Explicaría que hice 10.000 entrevistas y que los datos puros, sin manipular ni alterar de ninguna forma, no dejan lugar a dudas: el partido que organiza el acto va a ganar las elecciones con el 90% de los votos.

Nadie se tomaría en serio esos resultados. Es evidente que los asistentes al mitin no representan a toda la sociedad, porque son una muestra sesgada. Es fácil verlo en ese caso concreto, pero el mismo problema existe en general y esa es una de las razones de que se cocinen las encuestas.

¿Qué significa exactamente cocinar? El término se refiere a las técnicas que un encuestador emplea para producir estimaciones de voto con mayor exactitud a partir de los datos en bruto. No debería tener un sentido peyorativo, pero a veces lo tiene porque se confunden dos cosas: está bien que critiquemos las cocinas opacas —cuya metodología no se explica—, pero la práctica en sí misma es legítima y habitual.

Este debate parecía superado, pero ha vuelto después de que el CIS, organismo público encargado de las encuestas en España, nombrase a José Félix Tezanos como su nuevo presidente. El sociólogo ha criticado la cocina de encuestas en sus dos sentidos. Dice que la metodología del CIS debe ser transparente, pero además desconfía en general de los modelos usados para determinar la estimación de voto: “El único modelo es tomar exactamente lo que dice el ciudadano”, explicó a EL PAÍS. Desde su llegada, el CIS publica estimaciones que son prácticamente datos en bruto, alejando al CIS de otras instituciones de referencia. La mayoría de los sondeos punteros tratan los datos para producir sus estimaciones. Lo hacen así para anticipar la intención de voto de los indecisos, predecir quién irá realmente a votar y corregir sesgos en la muestra.

La mayoría de los sondeos punteros tratan los datos para determinar quién irá realmente a votar y evitar sesgos

La primera dificultad son las personas que no declaran su voto. ¿Se puede predecir el comportamiento de los indecisos, esa gente a la que, si se le pregunta, dirán sinceramente que no saben qué papeleta depositarán en la urna? En realidad, sí. Es habitual asumir, por ejemplo, que muchos indecisos volverán a votar lo mismo que la última vez. Pero también se emplean modelos más sofisticados que determinan su voto teniendo en cuenta la edad, la ideología o el lugar donde vive el elector.

Lo que más afecta es lo que sucede más cerca. Para no perderte nada, suscríbete.
Suscríbete

Otra dificultad consiste en averiguar quién irá a votar. La mayoría dice que lo hará, porque está bien visto y porque las personas somos optimistas, pero el día en cuestión suceden imprevistos y a veces no votamos. Para anticiparse a esto, los encuestadores asignan a cada persona una probabilidad sobre si realmente votará. La empresa demoscópica YouGov pregunta a los encuestados cómo de seguros están de que acudirán a las urnas y luego reducen a la mitad esa probabilidad si se abstuvieron la última vez. Otros sondeos tiene en cuenta el sexo, la edad o el partido al que apoya cada persona para decidir cómo de probable es que vote.

KIKO LLANERAS

El tercer problema que plantean las encuestas es el menos intuitivo y el más grave. Aunque se determine con total certeza a quién votarán 10.000 personas, la predicción todavía podría estrellarse si esas personas no han sido escogidas aleatoriamente. El caso del mitin mencionado antes es un ejemplo extremo, pero los sesgos en una muestra pueden surgir de forma sutil. Puede ser que ciertas personas sean más accesibles a los encuestadores (como los desempleados, que pasan más tiempo en casa) o que alguna gente sea más reacia a responder (como pasaba con los votantes del PP en el País Vasco). Sea por el motivo que sea, si en la muestra faltan personas de un tipo y hay demasiadas de otro, el resultado puede desviarse de la realidad.

Eso fue lo que pasó en Reino Unido con las elecciones generales de 2015. Una investigación concluyó que las encuestas habían fallado porque las muestras “sobrerrepresentaron sistemáticamente a los votantes laboristas”. El informe hacía varias sugerencias para evitar futuros errores y casi todas consistían en hacer más cocina. Recomendaba usar nuevas ponderaciones, la técnica más común para fortalecer la representatividad de un sondeo. La idea es detectar qué personas escasean en la muestra y darles más peso. Por ejemplo, si las mujeres universitarias son un 20% del censo pero solo representan un 10% de los entrevistados, una solución es doblar el valor de sus respuestas.

“Todas las agencias de investigación reputadas ponderan los datos como una medida de ajuste”, afirman en YouGov

Usar ponderaciones se ha convertido en algo habitual. Pew Research, una de las organizaciones de opinión pública más prestigiosas del mundo, pondera por sexo, edad, educación y raza. En YouGov van más lejos y ponderan también por clase social o último voto: “Todas las agencias de investigación reputadas ponderan los datos como una medida de ajuste”, afirman en la explicación sobre su metodología. Estas técnicas “son el presente”, explica por correo Pepe Fernández-Albertos, científico titular del CSIC. Y apunta dos motivos que explican esto: los “contextos de alta polarización” y “las bajas tasas de respuesta”. La investigadora de la Autónoma de Barcelona Berta Barbet está de acuerdo: “Tratar los datos es cada vez más importante por el declive en las tasas de respuesta”. El futuro de las encuestas parece ir en esa dirección. Cada vez se usan modelos estadísticos más sofisticados para reducir el margen de error de las estimaciones.

El interés por la cocina de las encuestas se ha redoblado por culpa de Internet y de la recolección masiva de datos. Hay grandes esperanzas en el desarrollo de modelos que permitan hacer predicciones con muestras no representativas, que se alimenten de redes sociales o del rastro digital que vamos dejando. ¿Será posible predecir el próximo presidente de EE UU haciendo encuestas a jugadores de videojuegos de Xbox? Con datos en bruto sería impensable porque los usuarios de videojuegos no representan al conjunto del electorado. Pero un trabajo de Andrew Gelman, catedrático de estadística en la Universidad de Columbia, demostró que podía hacerse: un modelo alimentado con esa muestra predijo las elecciones de 2012 con tanta precisión como las mejores encuestas. Parece magia, pero es estadística.

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte
_

Sobre la firma

Kiko Llaneras
Es periodista de datos en EL PAÍS y doctor en ingeniería. Antes de llegar al periódico en 2016 era profesor en la Universitat de Girona y en la Politécnica de Valencia. Escribe una newsletter semanal, con explicaciones y gráficos del día a día, y acaba de publicar el libro ‘Piensa claro: Ocho reglas para descifrar el mundo’.

Más información

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_