Análisis

Exposición didáctica de ideas, conjeturas o hipótesis, a partir de unos hechos de actualidad comprobados —no necesariamente del día— que se reflejan en el propio texto. Excluye los juicios de valor y se aproxima más al género de opinión, pero se diferencia de él en que no juzga ni pronostica, sino que sólo formula hipótesis, ofrece explicaciones argumentadas y pone en relación datos dispersos

Así de rápido avanza la IA: DeepSeek superada en siete días

La semana pasada la startup china revolucionó el sector. Esta semana, OpenAI lo revolucionó otra vez

Los logos de Deepseek y OpenAIDado Ruvic (REUTERS)

Kiko Llaneras

08 feb 2025 - 05:40CET

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

Ir a los comentarios

Esto es un envío de la newsletter de Kiko Llaneras, un boletín exclusivo para los suscriptores de El País. Apúntate para recibir explicaciones y datos cada semana.

La semana pasada, la IA china de DeepSeek sacudió el sector demostrando una eficiencia sorprendente: aunque no era el modelo más potente, ofrecía gran rendimiento con muy bajo coste. Pero la evolución del sector va a la velocidad de la luz: en cuestión de días, OpenAI ha presentado un modelo mejor, o3-mini, que supera a DeepSeek en capacidad y en precio.

El gráfico siguiente compara distintos modelos en el test ARC-AGI, mostrando el grado de acierto frente al coste en dólares por tarea. Resultado: el nuevo o3-mini cuesta tres veces menos que DeepSeek R1 y resuelve con acierto el doble de tareas.

Según Artificial Analysis, o3-mini es no solo más potente y económico, sino también considerablemente más rápido que DeepSeek R1. El modelo de OpenAI lidera en livebench.ai, superando a DeepSeek R1 y también a o1, que es mucho más caro. El o3-mini es especialmente sobresaliente en problemas de programación.

En mis pruebas estos días, he usado la versión más potente de o3-mini para diferentes cosas. Es realmente espectacular programando, especialmente en su primer disparo: a partir de tus instrucciones, devuelve código que funciona casi siempre a la primera. Ahora mismo el reto no es tanto que haga lo que quieres, como saber expresar lo que quieres (si trabajas para clientes, ya sabes a qué me refiero).

Por ejemplo, mirad la web que hice con o3-mini, sin tocar a mano ni una línea de código. Le pedí coger las ocho reglas de mi libro y que crease ocho animaciones que ilustraran cada una. Funcionó a la primera. Luego usé Claude 3.5 para iterar durante una hora, hasta acabar con el resultado que tenéis en el enlace anterior.

Un detalle de la animación creada por la IA o3-mini de OpenAI

No es trivial saber que IA es mejor

Algo interesante de la batalla entre modelos es que no es trivial decidir cuál es el mejor, lo que nos habla de su poder multitarea. Cuando creamos algoritmos para jugar al ajedrez, es fácil saber que el mejor será el que gana las partidas. Pero juzgar modelos de lenguaje es más complicado. Hay modelos buenos escribiendo texto, buscando en internet, siendo fiables, más creativos o mejores resolviendo problemas matemáticos. (Inciso: ¿Os acordáis que hace muy poco decíamos que los modelos tipo ChatGPT eran malísimos haciendo sumas o multiplicaciones? Es otra limitación que ha caído en los últimos meses.)

Las habilidades de cada modelo son impredecibles. No es que estos modelos se entrenen para ser mejores en ciertas tareas, sino que su capacidad la descubrimos con los tests anteriores. ¡Hay que ponerles exámenes! Además, todavía es más complicado: resulta que hay modelos que lo hacen regular en los tests, pero que luego muchos usuarios dicen que los prefieren en tareas reales. Su experiencia de uso es mejor. El ejemplo es Claude 3.5 Sonnet, que aunque ha sido superado en muchas pruebas, todavía es el favorito de mucha gente para montones de actividades. Yo siento que entiende mejor lo que quiero y me gusta más como escribe. Suena a broma pero es serio: muchos especialistas creen que parte del éxito de Claude es que nos gusta su personalidad.

Los nuevos modelos “razonadores”

La última remesa de modelos son lo que llamamos “razonadores”. Con o1 se introdujo lo que podemos llamar “chain-of-thought”, o cadena de pensamiento, que resultó una gran mejora algorítmica. OpenAI cambió la forma en que estos modelos abordan los problemas: en lugar de simplemente responder con una continuación del texto anterior, ahora “rumian” internamente antes de responder. Los modelos como o1, o3-mini y DeepSeek R1 hablan —o escriben— para sí mismos antes de contestarte.

Es un cambio pequeño, pero ha resultado fértil para desmenuzar problemas complejos y entregar respuestas más precisas en problemas de razonamiento, lógica o matemáticas, que es lo que diferencia a la nueva generación. Es en ese rumiar donde se producen los momentos “ajá”. Puedes leer a DeepSeek mientras “piensa”, y ver en qué instante se da cuenta de que ha cometido un error, que tu pregunta tenía doble sentido o que eras sarcástico. Entonces da un paso atrás y cambia sus ideas. Lo fascinante es que ese proceso de “pensar despacio” lo hace más inteligente, un mejor programador o un gran estudiante del MIR.

A toda velocidad

La lección que deja o3-mini es que los avances van a toda velocidad. La innovación de DeepSeek fue superada en una semana por OpenAI, mientras Google presentaba nuevos modelos.

A la vez, siguen llegando estudios del impacto real de modelos de la generación anterior. Por ejemplo, en Lancet Digital Health se publicó un ensayo con más de 100.000 mujeres en pruebas de mamografía que mostró que el uso de GPT-4 incrementa la detección de cáncer en un 29%. Otro estudio publicado en Nature Medicine, sobre un ensayo controlado con 92 médicos, reveló que la IA batía a los humanos en resolución de casos clínicos complejos.

Otras historias

📍 1. ¿Hasta qué altura llegó el agua en cada calle?

Esta semana publicamos un nuevo mapa interactivo para medir la magnitud brutal de las inundaciones en Valencia. Investigadores de la UPV midieron 5.000 marcas en fachadas y portales en Paiporta, Picanya, Catarroja y el resto de la Horta Sud. En algunos puntos, como la Avenida Blasco Ibáñez de Catarroja, la riada alcanzó hasta 2,8 metros de altura, suficiente para sumergir un coche. Un trabajo de Borja Andrino, Luis Sevillano y Montse Hidalgo; podéis verlo aquí.

Un detalle del mapa del nivel de la riada

📹 2. ¡Está lleno de vídeos!

Me impresionó este video: “Solo dos chavales en 2003 sin saber que acababan de crear una de las mejores canciones de la historia”. El video muestra a Andrew VanWyngarden y Ben Goldwasser, con 20 años, dando un pequeñísimo concierto en el campus de la Universidad Wesleyan, cantando la canción “Kids”. Ahí todavía no lo saben, pero ese tema acabaría convirtiéndose en un éxito global en 2007.

Una característica del mundo actual es que casi todo queda grabado. Momentos pequeños, prácticamente anónimos, se capturan en videos o en nuestros móviles. Esto permite ver el inicio de muchos fenómenos, cuando nadie sospecha que están ocurriendo.

🥳 3. Los jóvenes socializan menos

En Europa, la proporción de jóvenes que no socializan ni una vez a la semana ha saltado del 10% en 2010 al 25% en 2023. Aunque se relacionaran más por medios digitales, ambas cosas no son del todo intercambiables. Como cuenta John Burn-Murdoch en el Financial Times, los jóvenes pasan mucho más tiempo solos que hace 15 años, especialmente los chicos. Este recogimiento ha tenido efectos positivos —menor consumo de tabaco y alcohol—, pero también plantea preguntas sobre su impacto en la salud mental y el bienestar de los jóvenes. En el pasado he sido escéptico, pero he ido cambiando de opinión.

Esto es un envío de la newsletter de Kiko Llaneras, un boletín exclusivo para los suscriptores de El País. Apúntate para recibir explicaciones y datos cada semana.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Añadir usuario Continuar leyendo aquí

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Sobre la firma

Kiko Llaneras

Kiko Llaneras - twitter

Es periodista de datos en EL PAÍS y doctor en ingeniería. Antes de llegar al periódico en 2016 era profesor en la Universitat de Girona y en la Politécnica de Valencia. Escribe una newsletter semanal, con explicaciones y gráficos del día a día, y acaba de publicar el libro ‘Piensa claro: Ocho reglas para descifrar el mundo’.