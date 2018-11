Un promedio de doce encuestas coloca al PSOE como primera fuerza con el 33% de los votos, seguido de PP (21,4%), Adelante Andalucía (19,6%) y Ciudadanos (19%). Aunque los populares son segundos en la mayoría de sondeos, ese puesto todavía no está decidido y lo podrían ocupar tanto Ciudadanos como la coalición entre Podemos e IU.

A partir de estos sondeos, el modelo electoral de EL PAÍS permite estimar los escaños que logrará cada partido. El PSOE rondaría los 40 diputados, aunque puede moverse entre los 34 y los 46 con facilidad, y le seguirían el PP (20-31), Adelante Andalucía (17-27) y Ciudadanos (15-26). La extrema derecha de Vox podría lograr algún escaño, pero no lo tiene asegurado: en la mitad de las simulaciones se quedan sin representación, pero en una de cada cuatro consigue dos o más diputados.

Estos pronósticos se han calculado con 10.000 simulaciones de la votación del día 2 de diciembre en cada provincia andaluza. La metodología puede consultarse al final del texto.

La clave: las posibles mayorías

Como vimos en las elecciones generales de 2015 y 2016, la clave en un sistema parlamentario no está en saber quién consigue más votos o más escaños, sino en predecir qué partidos sumarán una mayoría suficiente —55 asientos en el caso andaluz— para escoger presidente y gobernar. Ese pronóstico no pueden ofrecerlo las encuestas, pero nuestro modelo sí.

Ahora mismo, el PSOE tiene menos de una opción entre 100 de alcanzar la mayoría absoluta en solitario. Pero también es poco probable que haya una mayoría hacía la derecha: la suma de PP y Ciudadanos solo alcanza los 55 diputados con una probabilidad del 4%, que no es una imposibilidad, pero que sólo debería ocurrir una de cada veinte veces. Eso deja dos combinaciones como las más sencillas. La suma de PSOE y AA alcanza los 55 diputados con una probabilidad del 95%; y un pacto como el actual, entre PSOE y Ciudadanos, los alcanza con una probabilidad del 90%.

El escenario más probable es aún mejor para el PSOE: el 86% de las veces dispondrá de esas dos alternativas al mismo tiempo. Es decir, podrá negociar una investidura con Podemos o Ciudadanos, sin estar en manos de uno de los dos. En otro 8% de las simulaciones el PSOE solo suma con AA, en el 4% solo suma con Ciudadanos, y en el 2% restante no alcanza los 55 escaños con ninguno.

Nuestro modelo intentar capturar la incertidumbre real de unas elecciones, y por eso es importante interpretar bien sus pronósticos. En el caso de los escaños, por ejemplo, las predicciones tienen horquillas de más 10 escaños, que pueden parecer excesivas, pero que no son caprichosas: reflejan el grado de precisión de las encuestas en el pasado. Estamos usando la misma metodología de nuestros modelos electorales de México, Colombia, Cataluña, Francia, Reino Unido, País Vasco o Galicia. Estos modelos convierten las encuestas en predicciones probabilísticas después de estudiar la precisión histórica de miles de sondeos. En el caso de las elecciones andaluzas, el modelo asume un error medio de 2 puntos por partido, que es mayor ahora porque faltan dos semanas hasta la votación.

La lucha por ser segundo

Por último, la tabla siguiente representa la probabilidad que tiene cada partido de quedar en cada puesto. Aunque el PP es segundo en la mayoría de encuestas, lo cierto es que esa posición no está en absoluto decidido. El PP tiene un 61% de opciones para ocupar ese puesto (6 de 10), pero Adelante Andalucía tiene un 21% (1 de 5) y Ciudadanos un 16% (1 de 6).

Metodología de nuestro modelo. Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. El modelo es similar al que usamos en México, Francia, Reino Unido o Cataluña. Funciona en tres pasos: 1) agregar y promediar las encuestas en Andalucía, 2) proyectar ese promedio sobre cada provincia, 3) incorporar la incertidumbre esperada, y 3) simular 10.000 elecciones para repartir escaños y calcular probabilidades.

Paso 1. Promediar las encuestas. Nuestro promedio tienen en cuenta una docena de sondeos para mejorar su precisión. Los datos han sido recopilados en su mayoría en Wikipedia. En el caso del CIS se incluyen dos estimaciones, la original que ha publicado el centro y una estimación propia, a partir de sus datos brutos. El promedio está ponderado para dar distinto peso a cada encuesta según tres factores: el tamaño de la muestra, la casa encuestadora y la fecha.

Peso por muestra. Las encuestas con más entrevistas reciben más peso, según una ley decreciente (pasado cierto umbral, hacer más entrevistas aporta poco).

Encuestas repetidas. Ponderamos a la baja las encuestas repetidas de un mismo encuestador. La idea es sencilla: no queremos que una empresa que haga muchas encuestas domine el promedio. Al calcular el promedio en una fecha, la encuesta más cercana de cada encuestador tiene peso 1, y el resto un peso reducido.

Peso por fecha. El último factor es el más importante: queremos dar más peso a las encuestas recientes al calcular el promedio. Para conseguir eso asignamos pesos a los sondeos según una ley decreciente exponencial (por ejemplo, en este promedio una encuesta de hace 20 días recibe la mitad de peso que una encuesta de hoy). También definimos una franja de exclusión y eliminamos completamente las encuestas con más de 90 días de antigüedad.

Paso 2. Proyectar el promedio a cada provincia. Antes de calcular los escaños es necesario estimar el porcentaje de votos de cada partido en cada provincia. Para eso hacemos una proyección lineal del promedio de votos en toda Andalucía sobre cada región. La proyección tiene en cuenta resultados históricos en cada provincia (en las generales del 2016 y las autonómicas de 2015), pero también el sondeo preelectoral del CIS.

Paso 3. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado y más importante. Necesitamos estimar la precisión esperada de los sondeos en Andalucía. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas hemos estudiado cientos de encuestas en España y miles internacionales.

Calibrar los errores esperados. Primero hemos estimado el error de las encuestas autonómicas en España. Hemos construido una base de datos con encuestas de siete elecciones desde 2012. El error absoluto medio (MAE) de los promedios de encuestas ha rondado los 2 puntos por partido. Eso significa que fueron habituales desviaciones de 3 o 4 puntos y que el margen de error se acerca a los 7 puntos para partidos alrededor del 30% de votos. Como siete elecciones son pocas para extraer conclusiones fuertes, hemos analizado también el acierto de las encuestas en las elecciones generales desde 1986, que es ligeramente inferior pero muy similar (1,9 puntos de error MAE).

Esos errores dependen al menos de dos cosas: del tamaño del partido y de la cercanía de las elecciones. Para tener en cuenta esos dos factores hemos recurrido a la base de datos de Jennings y Wlezien, recientemente publicada en Nature. Hemos analizado los errores de más de 4.100 encuestas en 241 elecciones de 19 países occidentales. Así hemos construido un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: i) su tamaño (es más fácil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y ii) los días que faltan hasta las elecciones (porque las encuestas mejoran al final). Por ejemplo, el error medio esperado para un partido con el 30% de votos cuando faltan dos semanas hasta la elección es de 2,8 puntos y el margen de error al 95% de confianza alcanza los 7 puntos.

Distribución. Para incorporar la incertidumbre al voto de cada partido en cada simulación utilizo uno distribución multivariable. Usamos distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explica Nate Silver. El nivel de curtosis lo he estimado con la base de datos. Luego defino la matriz de covarianzas de estas distribuciones para que i) la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty), y ii) consideren correlaciones entre candidatos cercanos (tomando datos del nivel de transferencias entre ellos entre 2015 y 2018, según el CIS). Por último, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la amplitud esperados según la calibración.

Paso 4. Simular. El último paso consiste en ejecutar el modelo 10.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidad que tiene cada partido de lograr cierto número de escaños, alcanzar la mayoría, quedar primero, etcétera.

Por qué encuestas. Nuestro modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero lo cierto es que las encuestas no lo han hecho mal últimamente. A nivel nacional fallaron por pocos puntos incluso con Trump o con el Brexit, y desde entonces se han estado bastante precisos en muchas elecciones, como pasó en México, Brasil, Colombia, Francia, Países Bajos, País Vasco, Galicia o Cataluña. Las encuestas raramente son perfectas, pero no existe ninguna alternativa que se haya demostrado mejor.