Selecciona Edición
Entra en EL PAÍS
Conéctate ¿No estás registrado? Crea tu cuenta Suscríbete
Selecciona Edición
Tamaño letra

¿Quién ganará el mundial? Así hacemos la predicción de EL PAÍS

Explicamos cómo funciona nuestro modelo estadístico

¿Quién ganará el mundial? Así hacemos la predicción de EL PAÍS

Si aún no lo has hecho, consulta primero la predicción completa. A continuación tienes una descripción detallada de cómo hacemos esa predicción.

¿Qué opciones tiene cada selección de ganar el mundial? Esa es la pregunta que intentamos responder con nuestro modelo estadístico. Simulamos el torneo miles de veces para calcular qué probabilidad tiene cada equipo de llegar a octavos, jugar las semifinales o llevarse el torneo. Así podemos decir qué equipos son favoritos, pero también en qué medida lo son. El modelo se alimenta de un ranking propio que ordena a las selecciones según su fortaleza, usando datos de cada selección y sus jugadores.

El modelo de predicción tiene tres partes fundamentales: 1) un ranking que mide la fuerza de cada selección, 2) un modelo estadístico para estimar los posibles resultados de cada partido, y 3) un simulador de la competición. A continuación puedes leer los detalles.

1. El ranking de EL PAÍS

Para medir la fortaleza de cada selección usamos un ranking. A cada equipo le asignamos una puntuación, de forma que los mejores tienen más puntos. La base de nuestro ranking es un método Elo, inspirado en el que se emplea en ajedrez y otros deportes. Usamos, en realidad, una media de tres rankings Elo diferentes: 1) uno “clásico”, que solo tiene en cuenta los resultados de cada selección, 2) otro basado en las ocasiones de gol producidas y concedidas, que llamamos “Elo esperado”, y 3) un “Elo de jugadores”, con datos de las plantillas de cada selección.

¿Quién ganará el mundial? Así hacemos la predicción de EL PAÍS

Ranking Elo clásico (peso 50%). El ranking Elo clásico mide la fuerza de cada equipo según sus resultados. Cada equipo tiene cierta cantidad de puntos —sus puntos Elo— y cuando se juega un partido se produce un intercambio. El ganador se lleva puntos del perdedor. Si la victoria es por sorpresa (porque se impone el equipo débil) los equipos se intercambian más puntos. El intercambio también es mayor si la victoria es por varios goles —porque es una señal de superioridad— y cuando el partido enfrenta a selecciones punteras. También damos más peso a los partidos más importantes, como fases finales o torneo continentales. Los ranking Elo funcionan bastante bien y se usan cada vez más. Para calcularlo hemos utilizado datos de 32.000 partidos y 159 selecciones.

Ranking Elo esperado (peso 30%). El segundo ranking es igual que el anterior, pero en lugar de alimentarse del resultado real de cada partido se alimenta del “resultado esperado”. Para eso usamos la métrica estrella de la analítica avanzada: los goles esperados. Esta estadística dice cuantos goles debería haber marcada un equipo (en media) con los remates que hizo en un partido, teniendo en cuenta muchos detalles de cada disparo, como la distancia, el ángulo, el tipo de remate o la jugada precedente. En este video se explica muy bien qué son y para qué sirve los goles esperados. Para construir este ranking usamos datos de goles esperados de más de 200 partidos de selecciones disputados desde 2017. Los datos nos los proporciona la empresa especializada en estadísticas deportivas Opta Sports.

El ranking Elo esperado nos sirve para reducir el efecto de la suerte. Sabemos que a veces se pierden o se empatan partidos que has dominado. El ranking Elo clásico ignora esos matices, pero la estadística de goles esperados los incorpora a nuestro modelo. No es una métrica perfecta, pero es un buen complemento. Especialmente en el caso de las selecciones, porque juegan pocos partidos y una derrota injusta puede costarles muchos puntos de Elo clásico.

Ranking Elo de jugadores (peso 20%). Nuestro tercer ranking explota la información disponible sobre los jugadores de cada selección. ¿Por qué usamos esto? Por lo mismo que decíamos hace un momento, las selecciones juegan pocos partidos y eso complica medir su rendimiento solo con sus resultados más recientes. Por eso es útil alimentar el modelo con otra información reciente. El ranking Elo lo construimos con dos datos de cada jugador: su valor en el mercado de fichajes y la fortaleza del club al que pertenece. La calidad de los clubs la medimos tomando su puntuación Elo en la web Clubelo. Los valores de mercado provienen de Transfermarkt. Por ejemplo, según Estos datos, el jugador más valioso del mundial juega en Argentina: Lionel Messi que pertenece al club más fuerte (el FC Barcelona, que tiene un Elo de 2025) y es uno de los jugadores más caros de todos (está valorado en 180 millones de euros). Para los clubs que no aparecen en Clubelo hemos construido un modelo sencillo que estima su puntuación Elo a partir del valor de mercado de sus plantillas. Para construir este ranking usamos datos de 352 clubs y 800 jugadores.

2. El modelo de partidos

Una vez tenemos el ranking de cada selección, el siguiente paso es construir una fórmula para predecir los resultados posibles de cualquier partido. Para eso hemos ajustado un modelo sencillo que estima los goles que marcará cada equipo en función de dos parámetros: la diferencia de puntos Elo entre los dos equipos y el factor campo. Por ejemplo, cuando se enfrentan dos selecciones con una diferencia Elo de 100 puntos, el equipo favorito marca de media 1,5 goles y su rival 1. El modelo también predice la probabilidad de una victoria (48%), de un empate (26%) y de cualquier resultado particular (un 2-1, por ejemplo, ocurre el 9% de las veces). Usamos una distribución de tipo Poisson, que ajusta razonablemente bien los goles en fútbol y se ha usado a menudo en modelos estadísticos y estudios académicos.

Para calibrar este modelo hemos usado una base de datos de 17.000 partidos de selecciones. Con datos de entrenamiento, el modelo acierta el resultado del 62% de los partidos cuando hay un equipo local y el 54% en campo neutral. Evaluado en términos probabilísticos, las predicciones del modelo obtienen un score de 0,163 y 0,195 (expresado con un Ranking Probability Score, como se explica aquí o aquí). Una precisión razonable si la comparamos con otros modelos o con las apuestas deportivas.

¿Quién ganará el mundial? Así hacemos la predicción de EL PAÍS

¿Por qué usamos un modelo que predice goles y no victorias directamente? Porque tiene dos ventajas: resuelve la fase de grupos y sirve para predecir prórrogas. El tiempo extra puede modelarse (de forma simplista) como un partido de 30 minutos. Algunos estudios (desde Dixon & Coles, 1997) sugieren que los modelos que predicen goles infraestiman los empates que realmente se producen. Al analizar partidos de Champions y grandes ligas efectivamente hemos encontrado que ese sesgo existe: los equipos empatan más de lo previsto. Pero ese efecto se reduce con partidos de selecciones. La diferencia parece razonable: en Liga y Champions el empate a menudo es útil para el mejor equipo, pero ese no suele ser el caso en un mundial.

3. El simulador del torneo

El tercer elemento de la predicción es el simulador. El último paso consiste en simular el torneo 10.000 veces, jugando virtualmente cada partido de la fase de grupos, de octavos, cuartos… y así hasta la final. Durante el torneo virtual se va actualizando un ranking Elo virtual. El modelo tiene en cuenta las reglas de la fase de grupos y el cuadro del mundial para ir creando los partidos sucesivos. También considera la posibilidad de empates, prorrogas y penaltis.

El resultado de las simulaciones son 10.000 versiones alternativas del torneo. Así podemos calcular la probabilidad de cada equipo para pasar a cuartos o jugar la final. Pero también situaciones muy particulares, como la probabilidad de que España juegue la final contra Alemania (6%) o que los cuatro semifinalistas sean Inglaterra, Alemania, Portugal y España (1%).

¿Quieres ver las últimas predicciones? Las puedes consultar en nuestra página web, que se va actualizando continuamente.

Preguntas frecuentes

¿Entonces va a ganar Brasil? No, no. Nuestro modelo dice que Brasil es el favorito para ganar el mundial, sí, pero también que tiene solo una opción entre cinco de ganar. Es importante interpretar bien las probabilidades: Brasil es favorito, con un 17% de opciones, pero eso es poco más probable que lanzar un dado y sacar un seis. La mayoría de las veces el ganador será otro equipo.

Estos datos vienen a demostrar que el mundial es una competición difícil de predecir. No es una sorpresa. El mundial es un torneo igualado y diseñado para que la suerte influya: no es una liga regular, no tiene playoffs, ni partidos de ida y vuelta. Además, hablamos de fútbol, un deporte apasionante en gran medida porque está lleno de sorpresas. Nadie se sentaría a ver un partido si el resultado estuviese decidido de antemano. Por eso los 100 metros no se disputan cada domingo, porque llevaríamos años viendo ganar a Usain Bolt cada fin de semana.

¿Existen otras predicciones para comparar? Sí, varias empresas, medios y grupos de investigación han publicado (o publicarán) predicciones con modelos estadísticos. Por ejemplo, Opta Sports tiene un modelo que da favorito a Brasil (13%), seguido de Alemania (11%) y Argentina (10%). El banco UBS publicó una predicción dando como favoritas a Alemania (24%), Brasil (20%) y España (16%). La otra fuente de pronósticos son las apuestas. Los precios en los mercados de apostadores pueden traducirse en probabilidades. A fecha 30 de mayo, un promedio de 23 casas colocaba como favorita a Brasil (18%), seguida de Alemania (17%), España (13%) y Francia (12%)

¿Debería apostar usando vuestros pronósticos? No, seguramente no. Nuestro modelo es relativamente sofisticado y creemos que puede funcionar bien. Pero las apuestas han demostrado en el pasado que son bastante precisas. Además, para no perder dinero no basta con batir sus pronósticos, hay que compensar también el margen que se reservan las casas al fijar los precios. Distintos modelos estadísticos se han medido contra las apuestas, y aunque algunos son igual o más preciosos, en general no sirven para batir a las apuestas. Esto no es una sorpresa. Los modelos estadísticos son útiles como referencia, por transparencia y porque nos permiten calcular detalles que las apuestas no responden. Pero a la hora de acertar, las apuestas son difíciles de batir. Los expertos que fijan las cuotas pueden usar información extra para afinar sus pronósticos —detalles como estilos de juego, estados de forma o lesiones—, pero también, claro, sus propios modelos de predicción.

Consulta la predicción completa.

Más información