¿Quién va a ganar las elecciones? Esto dicen las encuestas
Publicamos la predicción de escaños y mayorías de nuestro modelo estadístico, a partir de sondeos y 15.000 simulaciones. El resultado más probable es que PP y Vox tengan mayoría (55% de las veces), pero no sería sorprendente una aritmética ajustada y un gobierno de izquierdas
Las encuestas se apagaron este lunes con pronósticos dispares. Algunas ven una clara mayoría de la derecha, otras la dan justa y alguna ven más probable un gobierno de izquierdas. Teniendo en cuenta todos estos datos y el error natural de los sondeos: ¿qué probabilidades hay de que ocurra cada cosa? Es la pregunta que responde nuestro clásico modelo electoral probabilístico, que EL PAÍS publica desde 2016.
El gráfico siguiente representa nuestra estimación de escaños a partir del promedio de sondeos. El PP rondaría los 142 diputados, seguido de PSOE (108), Vox (35) y Sumar (34). El rest...
Las encuestas se apagaron este lunes con pronósticos dispares. Algunas ven una clara mayoría de la derecha, otras la dan justa y alguna ven más probable un gobierno de izquierdas. Teniendo en cuenta todos estos datos y el error natural de los sondeos: ¿qué probabilidades hay de que ocurra cada cosa? Es la pregunta que responde nuestro clásico modelo electoral probabilístico, que EL PAÍS publica desde 2016.
El gráfico siguiente representa nuestra estimación de escaños a partir del promedio de sondeos. El PP rondaría los 142 diputados, seguido de PSOE (108), Vox (35) y Sumar (34). El resto de fuerzas tendría alrededor de 31 escaños en total.
Para hacer esta estimación usamos un modelo estadístico y simulamos las elecciones 15.000 veces, tal y como explica la metodología al final del texto. El modelo se alimenta de sondeos e incorpora una pieza clave de información: su acierto histórico. En España los sondeos se desvían del resultado unos dos puntos por partido, de media, y no es raro que cometan errores de tres o más puntos con alguno. En otras palabras: nuestras horquillas son amplias pero no caprichosas, porque representan la precisión de los sondeos en el pasado.
Es fácil ver la incertidumbre que todavía rodea estas elecciones. Por ejemplo, según nuestros cálculos, el resultado más probable del PP sería rondar los 142 escaños, pero su intervalo de 90% de probabilidad va desde 119 a 164 asientos. Y todavía hay una opción entre 20 de que el PP acabase por encima (o por debajo) de esa enorme franja.
La clave: quién alcanzará la mayoría
La principal ventaja de tener un modelo de predicción es que permite atribuir probabilidades a diferentes resultados, algo que los sondeos no pueden hacer por sí solos. Eso permite enfrentar la pregunta fundamental de unas elecciones generales: ¿Qué partidos tienen opciones de sumar los 176 diputados necesarios? El gráfico muestra el resumen:
- El 55% de las veces PP y Vox sumarán una mayoría. En las 15.000 simulaciones, esa es la frecuencia con que los dos partidos alcanzan los 176 escaños que necesitan. La mayoría en solitario del PP solo ocurre en 1 de cada 100 ocasiones (1%). En otro 5% de las simulaciones podría haber un gobierno del PP, si además del apoyo de Vox en una investidura, consigue también el de Coalición Canaria, Unión del Pueblo Navarro y Teruel Existe.
- En otro 15% de las simulaciones (1 de 7) habría seguramente una mayoría de izquierdas, solo con que el PSOE lograse el apoyo de los mismos partidos que votaron a favor o se abstuvieron en la investidura de Pedro Sánchez tras los comicios de 2019: BNG, PNV, ERC y Bildu, además de Sumar. Y a eso habría que añadir un 1% de opciones de que PSOE y Sumar alcancen solos la mayoría.
- En el 23% de las simulaciones restantes, ninguna de las anteriores sumas es posible. Son casi siempre escenarios donde el PSOE necesitaría contar también con el apoyo de Junts, la CUP o ambos para pasar de 176 asientos (20% de las veces). Pero también se incluyen aquí los empates a 175 escaños entre ese grupo (PSOE, Sumar, BNG, PNV, ERC, Bildu, Junts y la CUP) y el formado por PP, Vox, UPN, CC y Teruel Existe (3%).
¿Qué significan estos datos? Las cifras anteriores son probabilidades: las que tiene cada mayoría de producirse. Dicen que una mayoría del PP y Vox es el resultado más probable, aunque apenas ocurre la mitad de las veces. En cierto modo, estos pronósticos son una advertencia ante posibles sorpresas. Otra forma de verlo es imaginar un árbol de alternativas. De cada 100 futuros posibles, los números de arriba dicen en cuántos gana la derecha y en cuántos la izquierda. Lo que no sabemos es cuál de esos futuros será el nuestro.
Las 15.000 simulaciones para cada partido
El siguiente gráfico muestra la distribución de escaños de cada formación en nuestras 15.000 simulaciones. Primero vemos los cuatro grandes. Además de constatar que la incertidumbre es considerable, es interesante ver que las distribuciones no son simétricas, por efecto del sistema electoral. Por ejemplo, Sumar y Vox tienen más fácil hacerse pequeños que crecer. Y pasa lo contrario con el PSOE, porque si crece suficiente amenazaría el primer puesto del PP en muchas provincias.
Por último, estas son las distribuciones de asientos para los pequeños partidos.
Metodología
Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. El modelo es similar al que usamos en las elecciones de abril y noviembre de 2019, en México, Francia, el Reino Unido, Andalucía, Cataluña o Madrid. Funciona en cuatro pasos: 1) agregar y promediar las encuestas, 2) proyectar ese promedio sobre cada provincia, 3) incorporar la incertidumbre esperada, y 4) simular 15.000 elecciones para repartir escaños y calcular probabilidades.
Paso 1. Promedio de encuestas. Nuestro promedio tiene en cuenta decenas de sondeos para mejorar su precisión. El promedio está ponderado para dar distinto peso a cada encuesta según tres factores: el tamaño de la muestra (las encuestas con más entrevistas reciben más peso, pero siguiendo una ley decreciente: pasado cierto umbral, hacer más entrevistas aporta poco); la casa encuestadora (las empresas con poca trayectoria pesan muy poco en el promedio) y la fecha (el último día solo importan las encuestas muy recientes). Además, penalizamos las encuestas repetidas de un mismo encuestador, para evitar que una sola empresa que haga muchas encuestas domine el promedio.
Los promedios como el nuestro pueden verse como una estimación de consenso. En lugar de confiar en un único encuestador, agregan el criterio y las hipótesis de todos. Los promedios reducen el ruido de los sondeos, evitando que salten arriba y abajo por azar. Y sobre todo: se ha demostrado que los promedios mejoran la precisión de las encuestas individuales.
Paso 2. Proyectar el voto a cada provincia. Antes de calcular los escaños es necesario estimar el porcentaje de votos de cada partido en cada provincia. Para hacerlo, se usan los resultados de las elecciones de 2019 y algunos ajustes con encuestas provinciales. Este es un método habitual, sencillo y que funciona razonablemente bien (si un partido crece, es lógico pensar que crecerá más donde ya era más fuerte). La mayor dificultad están en acertar con partidos muy pequeños que podrían tener opciones de escaños, pero sobre los que tenemos muy pocos datos.
Paso 3. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado e importante. Se necesita estimar la precisión esperada de los sondeos. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas se estudian cientos de encuestas en España y miles internacionales.
Calibrar los errores esperados. Primero se estima el error de las encuestas en España. Se construye una base de datos con todas las elecciones desde 1986. El error absoluto medio (MAE) de los promedios de encuestas ha rondado los 2 puntos por partido. Eso significa que fueron habituales desviaciones de 3 o 4 puntos y que el margen de error (al 95%) se acerca a los siete puntos para partidos alrededor del 30% de votos. Esos errores dependen al menos de dos cosas: del tamaño del partido y de la cercanía de las elecciones. Para tener en cuenta esos dos factores se recurre a la base de datos de Jennings y Wlezien, publicada en Nature. Se han analizado los errores de más de 4.100 encuestas en 241 elecciones de 19 países occidentales. Así se construye un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: 1) su tamaño (es más fácil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y 2) los días que faltan hasta las elecciones (porque las encuestas mejoran al final).
Elección del tipo de distribución. Para incorporar la incertidumbre al voto de cada partido en cada simulación se utiliza una distribución multivariable. Se usan distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explica Nate Silver: “El nivel de curtosis lo he estimado con la base de datos. Luego defino la matriz de covarianzas de estas distribuciones para que la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty). La incertidumbre la incorporo con 53 distribuciones, una a nivel nacional y otra en cada provincia. La primera distribución introduce errores iguales para el voto de un partido en toda España. Es importante hacerlo así porque en general los errores de las encuestas son sistémicos e iguales en todos los territorios. Si los asumimos independientes, los errores se cancelan entre provincias y el modelo falla por exceso de confianza. Esto pasó con algunos modelos de las elecciones de EE UU en 2016. La segunda parte de la incertidumbre la incorporo sobre cada provincia. Por último, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la desviación estándar esperados según la calibración.
Paso 4. Simular. El último paso consiste en ejecutar el modelo 15.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto, que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidades que tiene cada partido de lograr cierto número de escaños, alcanzar la mayoría, quedar primero, etcétera.
Por qué encuestas. Este modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero lo cierto es que las encuestas no lo han hecho mal últimamente. En los últimos cinco años han sido bastante precisas en España, aunque con excepciones como las elecciones andaluzas de 2018. Las encuestas raramente son perfectas, pero no existe ninguna alternativa que se haya demostrado mejor.
Ha colaborado en esta pieza Montse Hidalgo Pérez.
¿Quiere más datos? Suscríbete aquí a la ‘newsletter’ de Kiko Llaneras donde analiza y explica la actualidad con datos y gráficos.