Los creadores de DeepSeek, la IA china que noqueó a Silicon Valley, desvelan sus secretos
Los investigadores que desarrollaron el modelo describen en la revista ‘Nature’ cómo su apuesta por reducir al mínimo la intervención humana en el proceso resultó ganadora
Una pequeña y desconocida empresa china, DeepSeek, revolucionó en enero de este año la industria de la inteligencia artificial (IA) generativa. Su modelo R1 funcionaba tan bien o mejor que la última versión de ChatGPT, pero era gratuita y de código abierto. Se había logrado desarrollar en China pese al embargo a las exportaciones de chips y, según se anunció (y más tarde se cuestionó), con muchos menos recursos que la competencia. El equipo de DeepSeek publica hoy en la revista Nature un artículo en el que desgrana los avances que le permitieron poner patas arriba el sector. La clave está en su apuesta por el llamado aprendizaje por refuerzo.
La IA generativa, la que es capaz de producir textos, imágenes, vídeos o audios a partir de una serie de instrucciones del usuario, se apoya en el aprendizaje profundo (deep learning). Se trata de una estrategia dentro del campo de la IA que ha ganado relevancia en la última década y que consiste en aplicar algoritmos sobre gigantescas bases de datos para que extraigan patrones con los que hacer predicciones o tomar decisiones. Es decir, la IA aprende de los datos.
Hay varias formas de desarrollar el aprendizaje automático. La técnica del aprendizaje por refuerzo, la elegida por DeepSeek, se asemeja al modo en que un niño aprende a jugar a un videojuego. Al mover su personaje por el mundo virtual, aprende mediante prueba y error que algunas acciones, como coger monedas, le dan más puntos, y otras, como ser atacado por enemigos, se los restan.
Siguiendo con la metáfora, el aprendizaje con prompts (las órdenes que se le da a los chatbots) sería hacer que el niño se lea las instrucciones del juego para aprender a dominarlo. Y el aprendizaje supervisado consistiría en mostrarle al pequeño centenares de partidas de un compañero para que logre manejarse por imitación.
La técnica más usada hasta ahora era esta última, el aprendizaje supervisado: procesar millones de textos con el algoritmo, hacerle preguntas y seleccionar manualmente las respuestas buenas; volver a entrenarle con esas pautas, volver a corregir, y así paulatinamente. Tras ese proceso, la máquina estaba lista para reconocer qué palabra, frase o conjunto de fases tenían más probabilidades de ir a continuación del texto introducido por el usuario.
Los científicos de DeepSeek, sin los recursos de los gigantes tecnológicos y con restricciones para comprar chips de última generación, decidieron innovar. Se centraron en el aprendizaje reforzado, algo que no se había hecho antes. “Demostramos que las habilidades de razonamiento de los grandes modelos de lenguaje (LLM por sus siglas inglesas) se pueden incentivar mediante técnicas de aprendizaje reforzado puro, obviando la necesidad de introducir pastillas de razonamiento etiquetadas por humanos”, escriben los autores en el artículo.
“El equipo de DeepSeek ha logrado que los LLM pueden ser incentivados para aprender a razonar sin haber sido antes expuestos a ejemplos de secuencias de razonamiento humano”, observa Daphne Ippolito, profesora de la Carnegie Mellon University (Pittsburgh, EE UU) y experta en modelos de lenguaje natural.
Mezcla de técnicas
En un principio, los científicos de la startup china se centraron en disciplinas en las que fuera sencillo establecer objetivos o recompensas numéricas. La máquina tenía que lograr la máxima puntuación posible, pero no se le decía cómo. El resultado fue bueno. “El modelo alcanza un rendimiento superior en tareas verificables como matemáticas, competiciones de programación y campos STEM (ciencia, tecnología, ingeniería y matemáticas), superando a sus homólogos entrenados mediante aprendizaje supervisado convencional con demostraciones humanas”, resalta Wenfeng Liang, científico del equipo de IA de DeepSeek.
Pese a los buenos resultados, al no corregirse las respuestas, el modelo daba ocasionalmente respuestas curiosas, mezclando por ejemplo en un mismo texto inglés y chino, los dos idiomas en los que se optimizó el sistema. Pero, en líneas generales, funcionó bien.
“Nuestra hipótesis era que los patrones de razonamiento definidos por humanos pueden limitar la exploración del modelo, mientras que el entrenamiento mediante aprendizaje por refuerzo sin restricciones puede incentivar de mejor manera la emergencia de nuevas capacidades de razonamiento en los LLM”, dicen Liang y sus colegas. ¿Cómo puede limitar la interferencia humana al modelo? “Los prompts o el entrenamiento del LLM con indicaciones de personas pueden introducir sesgos, lo que impide que el modelo desarrolle sus propias formas de razonamiento”, apunta Ippolito.
Además de la mezcla de idiomas, se dieron cuenta de que las respuestas llegaban a ser larguísimas, de hasta 10.000 palabras, lo que hacía que fueran difíciles de seguir por el usuario. De ahí que los investigadores decidieran introducir en el cóctel algo de aprendizaje supervisado para lograr un equilibrio entre respuestas correctas y comprensibles. La combinación de esas dos aproximaciones, practicada en el modelo R1, les permitió llegar a un rendimiento puntero en matemáticas y programación.
Destilado de modelos y ahorro de recursos
Su aproximación les permitió ahorrar recursos. “Para conseguir que los LLM muestren cierta capacidad de razonamiento en la fase de pre-entrenamiento, hace falta una gran cantidad de recursos computacionales”, escribe el equipo de DeepSeek. Liang y sus compañeros han demostrado que esas capacidades pueden mejorar sirviéndole al sistema pocos ejemplos pero muy bien diseñados, o también usando prompts minimalistas.
Otra de las apuestas de la tecnológica china fue lo que se conoce como destilado de modelos de IA generativa (el aprovechamiento de los mismos), lo que les permitió no tener que desarrollar uno desde cero. Eso les permitió “conseguir un mayor acceso a IA poderosa a un coste energético más bajo”.
El equipo de DeepSeek considera que su demostración del uso del aprendizaje reforzado puede “desbloquear niveles más altos de capacidades en los LLM, allanando el camino a modelos más autónomos y adaptables en el futuro”. Para Ippolito, el trabajo de la firma china plantea más cuestiones. “La pregunta de qué hace que un modelo razone bien es una pregunta tan filosófica como técnica. ¿Qué tipo de respuestas busca un usuario cuando le hace una pregunta complicada a una IA? ¿Nos debería importar que la forma de razonar es ininteligible si pese a ello llega a la respuesta correcta?”.