Investigadores españoles descubren el truco que usan las IA para sacar tan buenas notas: “Es verdadera kriptonita”
Elon Musk acaba de anunciar Grok 3, de su empresa xAI, y ya hay pruebas que dicen que es el nuevo mejor chatbot. Pero una nueva investigación demuestra que los tests tienen muchas limitaciones

“Grok 3 es la IA más inteligente del mundo”, lanzó este martes la cuenta de X de Grok. Elon Musk, dueño de la empresa que lo desarrolla, xAI, estuvo todo el día repitiendo mensajes sobre cómo Grok es “el mejor chatbot del mundo” o que “está en la cima del mundo”. Horas antes Sam Altman, de ChatGPT, había escrito: “GPT-4.5 ha sido, para los primeros testadores más exigentes, una experiencia más cercana a una IA con sentido común de lo que esperaba”.
nice to meet you pic.twitter.com/fk1EOtSVFm
— Grok (@grok) February 18, 2025
Muchas de estas afirmaciones son puro marketing. Los chatbots de IA son un campo hoy extremadamente competitivo y decir que uno es el mejor atrae mucha inversión. Pero también hay un puñado de indicadores de referencia (llamados benchmarks en inglés) que sirven de prueba para comprobar qué modelos de IA responden mejor en tests similares. Si no estás arriba en esas pruebas, no eres nadie.
“Los números de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluación actual”, dice Julio Gonzalo, catedrático de Lenguajes y Sistemas Informáticos de la UNED. “Si hay mucha presión competitiva, hay exceso de atención sobre los benchmarks, y a las empresas les resultaría fácil manipularlos, así que no podemos fiarnos de los números que nos reportan”. Junto a otros dos investigadores españoles, Gonzalo ha probado un truco sencillo pero implacable para comprobar la eficacia de algunos de estos tests más prominentes. El objetivo básico era saber si los modelos leían y respondían como cualquier estudiante o, en cambio, solo buscaban la respuesta en el ingente cuerpo de datos que se ha usado para su entreno.
El resultado es que son aún sobre todo las máquinas más empollonas nunca antes ideadas: “En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online. Por tanto, los desarrolladores saben que la probabilidad de que hayan visto la respuesta a un examen disponible online es muy alta”, explica Eva Sánchez Salido, coautora e investigadora en la UNED.
Cómo liar a los modelos
¿Qué detalle han cambiado en el experimento para engañar a los modelos? Los investigadores han sustituido la respuesta correcta por una general que dice: “Ninguna de las otras”. Así, el modelo debía entender la pregunta y razonar, no solo encontrar la respuesta más probable en su memoria. “La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variación mucho más exigente”, dice Gonzalo. “Es verdadera kriptonita para los modelos”, añade.
Según el artículo, “los resultados muestran que todos los modelos pierden precisión de forma notable con nuestra variación propuesta, con una caída promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % según el modelo”, escriben los investigadores en el texto.
Este tipo de variaciones ya se había probado sobre todo con las preguntas, pero ha sido este cambio en las respuestas el que ha dado resultados más claros. “Este cambio tan simple de repente quita un velo a la experimentación con benchmarks y nos permite ver el progreso real en las capacidades de razonamiento aproximado de los sistemas sin el ruido que produce el acierto por memorización”, dice Guillermo Marco, coautor del experimento e investigador en la UNED.
Este cambio no prueba que las IA sean de repente inútiles, pero sí que su capacidad de razonamiento estaba hinchada y que evoluciona de manera más lenta que los departamentos de marketing y expertos en dar bombo pretenden: “Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalización escasa”, dice Gonzalo. “En otras palabras, siguen contestando de oídas, intuitivamente, y siguen siendo, en esencia, súpercuñados que lo han leído todo, pero no han asimilado nada”.
El debate sobre las limitaciones de los benchmarks está más extendido de lo que parece. Este mismo martes, uno de los mayores divulgadores sobre IA, Ethan Mollick, pedía tests más fiables.
Another thing Grok 3 highlights is the urgent need for better batteries of tests and independent testing authorities.
— Ethan Mollick (@emollick) February 18, 2025
Public benchmarks are both "meh" and saturated, leaving a lot of AI testing to be like food reviews, based on taste. If AI is critical to to work, we need more.
Hace unas semanas salió otro test llamado “examen definitivo de humanidad” que, de nuevo, los modelos parecen superar rápido más rápido de lo previsto. Son preguntas más difíciles, de nivel doctorado, y con unas respuestas que en principio no se encuentran online. Un problema añadido sobre esta prueba es que el corrector es otro modelo: ChatGPT-o3 mini. Tampoco parece la solución a los problemas de medición: “Es mucho más importante diseñar bien los exámenes, para que los resultados sean interpretables, que inventar exámenes más difíciles como si los chatbots ya tuvieran el nivel de graduados y hubiera que ponerles a hacer una tesis doctoral”, dice Gonzalo.
También es sustancial la diferencia entre lenguas. Estos modelos sacan mejor nota en inglés. Los investigadores han probado con el español para comparar y sale ya peor. En lenguas más minoritarias los resultados deberían ser aún más flojos: “El trabajo lo hemos hecho dentro del proyecto Odesia, un convenio entre Red.es y la UNED para medir la distancia entre el inglés y el español en IA”, dice Gonzalo. “Hemos detectado una tendencia muy clara: cuanto peor es el modelo (en general, cuando son cerebros artificiales con menos neuronas), más se nota la diferencia entre español y inglés”. Esta diferencia tiene más importancia de lo que parece porque los modelos de tamaño reducido se pueden instalar localmente en dispositivos y eso garantiza la privacidad de los datos. “Así se acaban usando modelos que funcionan mucho peor en español que ChatGPT o Claude”, añade Gonzalo.
Todo esto no significa que los modelos de IA tengan un techo claro. Los modelos de lenguaje puros sí que parecen tener un límite, pero los nuevos de razonamiento son más completos que los anteriores. “Por ejemplo, ChatGPT-o3 mini, aunque baja mucho su rendimiento, es el único que consigue aprobar [uno de los benchmarks]. Se están buscando nuevas técnicas de superar el funcionamiento de los modelos de lenguaje”, dice Gonzalo. En las pruebas de los investigadores, junto al único aprobado pelado de GPT-o3 mini, el otro modelo que mejor queda es DeepSeek R1-70b, porque baja menos que el resto su rendimiento con el nuevo test.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.
Sobre la firma
